天天看点

机器学习笔记6-偏差与方差

偏差与方差

偏差与方差是一对孪生子,类似于后面我想写的准确率和召回率

当我们的模型表现不佳时,通常是出现两种问题,一种是高偏差问题,另一种是高方差问题。识别它们有助于选择正确的优化方式,所以我们先来看下偏差与方差的意义。

- 偏差: 描述模型输出结果的期望与样本真实结果的差距。 

- 方差: 描述模型对于给定值的输出稳定性。

机器学习笔记6-偏差与方差

上图形象地解释了偏差和方差的概念。就像打靶一样,偏差描述了我们的射击总体是否偏离了我们的目标,而方差描述了射击水平的稳定性。接下来让我们通过各种情况下训练集和交叉验证集的误差曲线来直观地理解高偏差与高方差的意义。

对于多项式回归,当次数选取较低时会产生欠拟合,我们的训练集误差和交叉验证集误差都会很大;当次数选择刚好时,训练集误差和交叉验证集误差都很小;当次数过大时会产生过拟合,虽然训练集误差很小,但交叉验证集误差会很大。

机器学习笔记6-偏差与方差

所以我们可以计算

机器学习笔记6-偏差与方差

机器学习笔记6-偏差与方差

,如果他们同时很大的话,就是遇到了高偏差问题,而

机器学习笔记6-偏差与方差

机器学习笔记6-偏差与方差

大很多的话,则是遇到了高方差问题。

对于正则化参数,使用同样的分析方法,当参数比较小时容易产生过拟合现象,也就是高方差问题。而参数比较大时容易产生欠拟合现象,也就是高偏差问题。

机器学习笔记6-偏差与方差

学习曲线

无论你是要检查你的学习算法是否正常工作或是要改进算法的表现,学习曲线都是一个十分直观有效的工具。学习曲线的横轴是样本数,纵轴为训练集和交叉验证集的误差。所以在一开始,由于样本数很少,

机器学习笔记6-偏差与方差

几乎为0,而

机器学习笔记6-偏差与方差

则非常大。随着样本数的增加,

机器学习笔记6-偏差与方差

不断增大,而

机器学习笔记6-偏差与方差

因为训练数据增加而拟合得更好因此下降。所以 学习曲线 看上去如下图:

机器学习笔记6-偏差与方差

在高偏差的情形下,

机器学习笔记6-偏差与方差

 与 

机器学习笔记6-偏差与方差

已经十分接近,但是 误差 很大。这时候增加样本数并不能给算法的性能带来提升。

机器学习笔记6-偏差与方差

在高方差的情形下,

机器学习笔记6-偏差与方差

的 误差 较小,

机器学习笔记6-偏差与方差

比较大,这时搜集更多的样本很可能带来帮助。 

机器学习笔记6-偏差与方差

总结

有了以上的分析手段,就能够得出在何种场景下使用我们的改进策略:

  • [高偏差] 引入更多的相关特征
  • [高方差] 减少特征数量,去除非主要的特征
  • [高偏差] 减小正则化参数 λ
  • [高方差] 增加正则化参数 λ
  • [高偏差] 采用多项式特征
  • [高方差] 采集更多的样本数据

参考博客:https://blog.csdn.net/hertzcat/article/details/80035330?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

继续阅读