Regularization 正则化
Ref: P9 - P10
本节讨论了一个曲线拟合问题,待拟合的是一组有噪声的数据。
这一问题中,待训练的模型如下:
$$
y(x, \mathbf{w})=w_{0}+w_{1} x+w_{2} x^{2}+\ldots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j}
$$
当使用朴素的均方误差作为损失函数:
$$
E(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right}^{2}
$$
且样本数量并不够大的时候,会出现严重的过拟合现象,如下左图。
为了克服这一问题,在均方误差基础上添加一个惩罚项,能有效修正这一问题:
$$
\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right}^{2}+\frac{\lambda}{2}|\mathbf{w}|^{2}
$$
这一类做法被称为正则化,在统计学上是一种收缩(shrinkage)的方法。
本例中的方法,在传统机器学习、统计学上称为岭回归(ridge regression);在神经网络训练中称为 权重衰减(weight decay),也称为 L2 正则化。
Q1 为什么随着过拟合的发生,权重激增?
Q2 模型对数据的敏感程度与权重标准差较大的关系