天天看点

机器学习课堂笔记8

1,机器什么时候可以学习

2,为什么机器可以学习

3,机器怎么学习

4,机器怎么样才能学得更好

过拟合

当generalization做得不好的时候就会出现Ein和Eout相差很远的情况,数据上的体现就是Ein很低,但是Eout很高。出现过拟合的主要原因有:

1,dvc过大,模型复杂度过高

2,数据有很多噪音

3,数据样本量太少(N太小)

数据噪音可以分为两种:stochastic noise和deterministic noise. 前者就是真正数据噪音,后者则是由于目标函数过于复杂,导致数据看上去就像有噪音一样。

在有noise的时候,高复杂度的假设有时没有低复杂度的拟合效果好(即使高复杂度的假设和真实情况更接近,甚至是完全契合的):

例如有stochastic noise的情况,target function为10次多项式,但是存在噪音。或者stochastic noise, 但是target function是50次多项式(此时目标函数的复杂度可以看成是一种噪音,deterministic noise)分别用2次和10次多项式拟合:

机器学习课堂笔记8

简单的函数的一般化都会更好。这是因为大部分情况下,用更复杂的假设去拟合时,我们的数据量不足以支持Ein和Eout足够接近:

机器学习课堂笔记8

当N接近正无穷的时候,10次多项式的误差会小一些。但实际操作中很少能有那么多样本,而在有限的样本范围内,还是更简单的假设表现更好

处理过拟合的方法:

1,数据清洗:手工去掉噪音数据,例如调整数据label,错的变成对的

2,数据剪枝:删掉一部分不能用的数据,不让它们影响大局

3,数据微调:例如对数据做一些旋转变化,增加一些虚拟的样本量

4,正则化

正则化

以多项式假设为例,说明各种正则化方法:

当假设太复杂时,dvc过大,会有过拟合的风险。例如用Q次方程来拟合:

机器学习课堂笔记8

正则化就是要纠正太复杂的假设。

高次方程和低次方程的区别在于高次方程存在高次项系数,如果约束了系数(例如所有2次以上的系数=0),高次方程就变简单了。但仅约束高次项系数没有意义(实际上就完全退化成低次方程了),所以进阶的是约束系数=0的个数。例如10次方程,约束>=8个系数为0,这样可以起到一定的正则化作用。加上约束后,回归问题变成:

机器学习课堂笔记8

由于在最小化问题中加入的约束是非连续的方程,解这个问题是NP HARD的。所以将约束转变为:所有的系数平方之和小于某个值。这样也能起到约束复杂度的作用:

机器学习课堂笔记8

L1, L2 Regularization

岭回归(L2)

就是上面所说的系数平方和被约束小于某个常数的正则化方法

机器学习课堂笔记8

在没有约束的情况下,最小化Ein(W)的方法是梯度下降,就是往Ein梯度的反方向移动。在加了限制以后,可以将问题理解为:限制系数分布在一个以原点为中心的(高维)球面或球内,同时尽量向着Ein下降最快的方向(梯度反方向)移动。其几何意义可以理解成下图:

机器学习课堂笔记8

蓝色的负梯度方向是无约束情况下最小的Ein下降方向。这一向量可以拆分为球面法向量和切向量。若往法向量方向移动就会超出球面,因此只能往切向量方向移动,即绿色向量方向。在不断移动知道梯度反方向的切向量分量=0时,就达到了有约束情况下的最优解

使用拉格朗日乘数解决有约束的最优化问题:

机器学习课堂笔记8

增广误差:岭回归实际上等同于在原有的Ein方程中加入正则化项,然后做一个没有约束的最小化问题

机器学习课堂笔记8

正则化项的系数越大,C(即系数平方的和的约束)越小,假设就被约束得越严格,越不容易过拟合。岭回归的正则化项也叫权重衰减正则化

勒让德多项式:解决高次项系数被过分约束的问题:

机器学习课堂笔记8

在普通的多项式转化中,基底不是垂直的,因此当X定义域在-1都1之间,高次项的值会非常小,导致其系数很大,而很大的系数容易被岭回归的条件约束。因此采用正规化多项式转化,即勒让德多项式,可以解决这一问题

LASSO回归(L1)

设计正则化项的时候有三个原则:

1,根据对问题的理解设置(例如已知方程是偶函数,则可以设置正则化项专门惩罚奇次项系数)

2,正则化问题容易解决(即上述的岭回归,增加系数二次项,凸函数可微,容易求解)

3,正则化可以将原先的问题变得简单平滑

简单平滑意味着系数少,即系数是sparse稀疏的。

机器学习课堂笔记8

L1正则化的几何意义可以理解为上图。类似于L2几何意义的理解,当正则化最优时,梯度反方向在边界上的分量为0,这通常发生在边界(上图菱形)顶点处,顶点的系数比较稀疏,很多Wi=0,因此L1回归可以让系数稀疏化

继续阅读