1  统计学习

1.1 统计学习

一般情况,假设一个定量的响应变量\(Y\)\(p\)个不同的预测变量,记为\(X_1, X_2, X_3, ..., X_p\)。假设\(Y\)\(X=(X_1, X_2, X_3, ..., X_p)\)之间存在一个关系,记为\[Y=f(X)+\epsilon\] 其中\(f\)是未知的,\(\epsilon\)是随机误差,它反映了\(Y\)\(X\)之间真实关系\(f\)的误差。统计学习就是通过数据来学习\(Y\)\(X\)之间的真实关系\(f\),并利用学习到的\(f\)来预测新的\(Y\)值。

估计\(f\)的主要原因有两个:

  1. 预测:已知\(X\)的值,预测\(Y\)的值。关心预测结果的准确性。
  2. 推断:了解\(Y\)\(X\)之间的关系,当\(X\)的值发生变化时,\(Y\)的值如何变化。

估计\(f\)的方法主要有两种:

  1. 参数估计:基于模型估计\(f\),假设\(f\)具有特定的形式,如线性模型、多项式模型等。
  2. 非参数估计:不假设\(f\)的特定形式,直接从数据中学习\(f\)

无指导学习:只有预测变量\(X\),没有响应变量\(Y\),通常用于聚类等分析。 有指导学习:有预测变量\(X\)和响应变量\(Y\),通常用于回归、分类等分析。

1.2 评价模型精度

在回归任务中,通常使用均方误差(MSE)\[MSE=\frac{1}{n}\sum_{i=1}^n{\left( y_i-\hat{y}_i \right) ^2} \]来评价模型的精度,MSE越小,模型的精度越高。一般情况下,我们使用训练数据得到的模型来预测训练数据,得到的MSE称为训练均方误差,使用测试数据得到的MSE称为测试均方误差。训练均方误差越小,测试均方误差不一定越小,因为模型可能过拟合训练数据。测试均方误差一般难以得到,可以使用交叉验证的方法来估计测试均方误差。

偏差-方差权衡

  1. 偏差:选择一个简单模型逼近真实函数而被带入的误差,表示模型对训练数据的拟合程度
  2. 方差:用一个不同训练集估计\(f\)时,估计函数的改变量,表示模型对训练数据的泛化能力

偏差越大,方差越小,模型越复杂;偏差越小,方差越大,模型越简单。我们需要找到一个偏差和方差都较小的模型。

分类模型

最常用于估计分类模型精度的方法是训练错误率,也就是在训练集上分类错误的样本数占训练集样本数的比例。一般用示性函数\(\mathbb{I}\)表示,如果分类正确,\(\mathbb{I}=0\),否则\(\mathbb{I}=1\)。训练错误率可以表示为\[\frac{1}{n}\sum_{i=1}^n{\mathbb{I}\left( \hat{y}_i\neq y_i \right)}\] 其中\(\hat{y}_i\)表示第\(i\)个样本的预测值,\(y_i\)表示第\(i\)个样本的真实值。

建模成功的关键是:选择合适的光滑水平