机器学习基础 - 个人AI知识分享

机器学习（Machine Learning）是人工智能的核心领域，它让计算机能够从数据中自动学习规律和模式，无需显式编程。本文将深入介绍机器学习的核心概念和常用算法。

一、机器学习概述

什么是机器学习？

机器学习是一种让计算机通过经验（数据）自动改进性能的技术。著名计算机科学家Tom Mitchell给出的经典定义是：

📖 机器学习的定义

"如果一个计算机程序在任务T上的性能P，随着经验E的增加而提高，那么我们就说这个程序在从经验中学习。"

机器学习的工作流程

数据收集

→

数据预处理

→

特征工程

→

模型训练

→

模型评估

→

部署应用

二、机器学习的三大类型

类型	数据特点	目标	典型应用
监督学习	有标签数据	预测标签/数值	分类、回归
无监督学习	无标签数据	发现数据结构	聚类、降维
强化学习	交互反馈	最大化奖励	游戏AI、机器人

三、监督学习算法详解

分类算法

🔹 逻辑回归（Logistic Regression）

虽然名字带"回归"，但实际上是分类算法。使用Sigmoid函数将线性输出映射到0-1之间的概率值。

优点：简单高效、可解释性强、适合二分类

缺点：只能处理线性可分问题

📌 应用场景：垃圾邮件检测、疾病诊断、信用评估

🔹 决策树（Decision Tree）

通过一系列if-then规则对数据进行分类，形成树状结构。每个节点代表一个特征判断。

优点：易于理解和可视化、无需数据标准化

缺点：容易过拟合、对噪声敏感

📌 应用场景：客户分群、风险评估、故障诊断

🔹 随机森林（Random Forest）

集成多棵决策树，通过投票机制得出最终结果。是"集成学习"的典型代表。

优点：准确率高、不易过拟合、可处理高维数据

缺点：训练时间较长、模型较大

📌 应用场景：图像分类、推荐系统、金融预测

🔹 支持向量机（SVM）

寻找最优超平面将不同类别的数据分开，最大化分类间隔。通过核函数可处理非线性问题。

优点：在高维空间表现优秀、泛化能力强

缺点：大数据集训练慢、参数选择复杂

📌 应用场景：文本分类、图像识别、生物信息学

🔹 K近邻（KNN）

基于"物以类聚"的思想，根据K个最近邻居的类别来决定新样本的类别。

优点：简单直观、无需训练

缺点：计算量大、对数据量和维度敏感

📌 应用场景：推荐系统、模式识别、异常检测

回归算法

🔸 线性回归（Linear Regression）

寻找自变量和因变量之间的线性关系，使用最小二乘法拟合直线。

公式：y = wx + b

📌 应用场景：房价预测、销量预测、趋势分析

🔸 多项式回归（Polynomial Regression）

线性回归的扩展，通过添加高次项来拟合非线性关系。

📌 应用场景：曲线拟合、复杂趋势预测

四、无监督学习算法

🔹 K-Means聚类

将数据分成K个簇，使每个数据点属于距离最近的簇中心。迭代更新簇中心直到收敛。

步骤：1. 初始化K个中心 → 2. 分配数据点 → 3. 更新中心 → 4. 重复直到收敛

📌 应用场景：客户分群、图像压缩、市场细分

🔹 主成分分析（PCA）

一种降维技术，将高维数据投影到低维空间，同时保留最大方差（信息量）。

📌 应用场景：数据可视化、特征提取、噪声过滤

五、模型评估指标

分类问题评估

准确率（Accuracy）：正确预测的比例
精确率（Precision）：预测为正类中实际为正的比例
召回率（Recall）：实际正类中被正确预测的比例
F1分数：精确率和召回率的调和平均
AUC-ROC：模型区分正负样本的能力

回归问题评估

均方误差（MSE）：预测值与真实值差的平方的平均
均方根误差（RMSE）：MSE的平方根
平均绝对误差（MAE）：预测值与真实值差的绝对值的平均
R²分数：模型解释的方差比例

六、实战代码示例

分类示例：使用随机森林

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 加载乳腺癌数据集
data = load_breast_cancer()
X, y = data.data, data.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 创建并训练模型
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    random_state=42
)
rf_model.fit(X_train, y_train)

# 预测
y_pred = rf_model.predict(X_test)

# 评估
print("分类报告：")
print(classification_report(y_test, y_pred))
print("\n混淆矩阵：")
print(confusion_matrix(y_test, y_pred))

# 特征重要性
feature_importance = rf_model.feature_importances_
top_features = np.argsort(feature_importance)[-5:]
print("\n最重要的5个特征：")
for idx in top_features:
    print(f"  {data.feature_names[idx]}: {feature_importance[idx]:.4f}")
                

回归示例：房价预测

from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# 加载加州房价数据集
housing = fetch_california_housing()
X, y = housing.data, housing.target

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# 训练线性回归模型
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

# 预测
y_pred = lr_model.predict(X_test)

# 评估
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"均方误差 (MSE): {mse:.4f}")
print(f"均方根误差 (RMSE): {rmse:.4f}")
print(f"R² 分数: {r2:.4f}")
                

七、避免过拟合的技巧

⚠️ 什么是过拟合？

模型在训练数据上表现很好，但在新数据上表现差。就像"死记硬背"而不是真正理解。

防止过拟合的方法：

增加训练数据：更多数据帮助模型学习通用规律
交叉验证：使用K折交叉验证评估模型
正则化：L1/L2正则化限制模型复杂度
早停（Early Stopping）：在验证集性能下降时停止训练
Dropout：随机丢弃部分神经元（深度学习中）
集成方法：结合多个模型的预测结果

八、总结与下一步

机器学习是一个广阔的领域，本文介绍了基础概念和常用算法。要真正掌握，需要：

深入理解算法的数学原理
通过实际项目积累经验
学习特征工程和数据预处理技巧
了解模型调优和超参数选择

📚 推荐阅读

下一篇：深度学习应用 - 探索神经网络的强大能力

← 返回博客列表