过拟合及解决方案

宋代词人2023-05-02 39

是什么

过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含 抽样误差 ，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。

具体表现就是最终模型在训练集上效果好；在测试集上效果差。模型泛化能力弱。

为什么

为什么要解决过拟合现象？这是因为我们拟合的模型一般是用来预测未知的结果（不在训练集内），过拟合虽然在训练集上效果好，但是在实际使用时（测试集）效果差。同时，在很多问题上，我们无法穷尽所有状态，不可能将所有情况都包含在训练集上。所以，必须要解决过拟合问题。

为什么在机器学习中比较常见？这是因为机器学习算法为了满足尽可能复杂的任务，其模型的拟合能力一般远远高于问题复杂度，也就是说，机器学习算法有「拟合出正确规则的前提下，进一步拟合噪声」的能力。

而传统的函数拟合问题（如机器人系统辨识），一般都是通过经验、物理、数学等推导出一个含参模型，模型复杂度确定了，只需要调整个别参数即可。模型「无多余能力」拟合噪声。

怎么样

如何防止过拟合：

主要是以下4点

1 获取更多数据

这是解决过拟合最有效的方法，只要给足够多的数据，让模型「看见」尽可能多的「例外情况」，它就会不断修正自己，从而得到更好的结果：

如何获取更多数据，可以有以下几个方法：

2 使用合适的模型

前面说了，过拟合主要是有两个原因造成的：数据太少 + 模型太复杂。所以，我们可以通过使用合适复杂度的模型来防止过拟合问题，让其足够拟合真正的规则，同时又不至于拟合太多抽样误差。

（PS：如果能通过物理、数学建模，确定模型复杂度，这是最好的方法，这也就是为什么深度学习这么火的现在，我还坚持说初学者要学掌握传统的建模方法。）

对于神经网络而言，我们可以从以下四个方面来 限制网络能力 ：

21 网络结构 Architecture

这个很好理解，减少网络的层数、神经元个数等均可以限制网络的拟合能力；

22 训练时间 Early stopping

对于每个神经元而言，其激活函数在不同区间的性能是不同的：

当网络权值较小时，神经元的激活函数工作在线性区，此时神经元的拟合能力较弱（类似线性神经元）。

有了上述共识之后，我们就可以解释为什么限制训练时间（early stopping）有用：因为我们在初始化网络的时候一般都是初始为较小的权值。训练时间越长，部分网络权值可能越大。如果我们在合适时间停止训练，就可以将网络的能力限制在一定范围内。

23 限制权值 Weight-decay，也叫正则化（regularization）

原理同上，但是这类方法直接将权值的大小加入到 Cost 里，在训练的时候限制权值变大。以 L2 regularization 为例：

训练过程需要降低整体的 Cost，这时候，一方面能降低实际输出与样本之间的误差C 0 ，也能降低权值大小。

24 增加噪声 Noise

给网络加噪声也有很多方法：

241 在输入中加噪声：

噪声会随着网络传播，按照权值的平方放大，并传播到输出层，对误差 Cost 产生影响。推导直接看 Hinton 的 PPT 吧：

在输入中加高斯噪声，会在输出中生成 \Sigma_i\sigma^2_i\cdot w^2_i 的干扰项。训练时，减小误差，同时也会对噪声产生的干扰项进行惩罚，达到减小权值的平方的目的，达到与 L2 regularization 类似的效果（对比公式）。

242 在权值上加噪声

在初始化网络的时候，用 0 均值的高斯分布作为初始化。Alex Graves 的手写识别 RNN 就是用了这个方法

243 对网络的响应加噪声

如在前向传播过程中，让默写神经元的输出变为 binary 或 random。显然，这种有点乱来的做法会打乱网络的训练过程，让训练更慢，但据 Hinton 说，在测试集上效果会有显著提升（But it does significantly better on the test set!）。

3 结合多种模型

简而言之，训练多个模型，以每个模型的平均输出作为结果。

从 N 个模型里随机选择一个作为输出的期望误差 <[t-y_i]^2> ，会比所有模型的平均输出的误差 <[t-\bar{y}]^2> 大（我不知道公式里的圆括号为什么显示不了）：

大概基于这个原理，就可以有很多方法了：

31 Bagging

简单理解，就是分段函数的概念：用不同的模型拟合不同部分的训练集。以随机森林（Rand Forests）为例，就是训练了一堆互不关联的决策树。但由于训练神经网络本身就需要耗费较多自由，所以一般不单独使用神经网络做 Bagging。

32 Boosting

既然训练复杂神经网络比较慢，那我们就可以只使用简单的神经网络（层数、神经元数限制等）。通过训练一系列简单的神经网络，加权平均其输出。

33 Dropout

这是一个很高效的方法。

在训练时，每次随机（如 50% 概率）忽略隐层的某些节点；这样，我们相当于随机从 2^H 个模型中采样选择模型；同时，由于每个网络只见过一个训练数据（每次都是随机的新网络），所以类似 bagging 的做法，这就是我为什么将它分类到「结合多种模型」中；

此外，而不同模型之间权值共享（共同使用这 H 个神经元的连接权值），相当于一种权值正则方法，实际效果比 L2 regularization 更好。

4 贝叶斯方法

这部分我还没有想好怎么才能讲得清楚，为了不误导初学者，我就先空着，以后如果想清楚了再更新。当然，这也是防止过拟合的一类重要方法。

过拟合经常发生：

先看范例：

运行结果：

模型在训练集上的精度是985%，在测试集上的精度是900%，显然发生过拟合了。

解决办法：

加入Dropout层 ，模型修改为：

运行结果：

加入权重正则化 ，模型修改为

运行结果：

模型在训练集上的精度是863%，在测试集上的精度是874%，显然增加过Dropout+L2后，模型过拟合好了，但又发生了欠拟合

把Epochs增加为：20，其运行结果：

模型在训练集上的精度是8802%，在测试集上的精度是887%

结论：

欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和测试误差之间的差距太大。

过拟合及解决方案

模型

神经元

神经网络

数据

误差

监狱的别名

中国五大银行是哪几个