机器学习课堂笔记8

1，机器什么时候可以学习

2，为什么机器可以学习

3，机器怎么学习

4，机器怎么样才能学得更好

过拟合

当generalization做得不好的时候就会出现Ein和Eout相差很远的情况，数据上的体现就是Ein很低，但是Eout很高。出现过拟合的主要原因有：

1，dvc过大，模型复杂度过高

2，数据有很多噪音

3，数据样本量太少（N太小）

数据噪音可以分为两种：stochastic noise和deterministic noise. 前者就是真正数据噪音，后者则是由于目标函数过于复杂，导致数据看上去就像有噪音一样。

在有noise的时候，高复杂度的假设有时没有低复杂度的拟合效果好（即使高复杂度的假设和真实情况更接近，甚至是完全契合的）：

例如有stochastic noise的情况，target function为10次多项式，但是存在噪音。或者stochastic noise, 但是target function是50次多项式（此时目标函数的复杂度可以看成是一种噪音，deterministic noise）分别用2次和10次多项式拟合：

机器学习课堂笔记8

简单的函数的一般化都会更好。这是因为大部分情况下，用更复杂的假设去拟合时，我们的数据量不足以支持Ein和Eout足够接近：

机器学习课堂笔记8

当N接近正无穷的时候，10次多项式的误差会小一些。但实际操作中很少能有那么多样本，而在有限的样本范围内，还是更简单的假设表现更好

处理过拟合的方法：

1，数据清洗：手工去掉噪音数据，例如调整数据label，错的变成对的

2，数据剪枝：删掉一部分不能用的数据，不让它们影响大局

3，数据微调：例如对数据做一些旋转变化，增加一些虚拟的样本量

4，正则化

正则化

以多项式假设为例，说明各种正则化方法：

当假设太复杂时，dvc过大，会有过拟合的风险。例如用Q次方程来拟合：

机器学习课堂笔记8

正则化就是要纠正太复杂的假设。

高次方程和低次方程的区别在于高次方程存在高次项系数，如果约束了系数（例如所有2次以上的系数=0），高次方程就变简单了。但仅约束高次项系数没有意义（实际上就完全退化成低次方程了），所以进阶的是约束系数=0的个数。例如10次方程，约束>=8个系数为0，这样可以起到一定的正则化作用。加上约束后，回归问题变成：

机器学习课堂笔记8

由于在最小化问题中加入的约束是非连续的方程，解这个问题是NP HARD的。所以将约束转变为：所有的系数平方之和小于某个值。这样也能起到约束复杂度的作用：

机器学习课堂笔记8

L1, L2 Regularization

岭回归（L2）

就是上面所说的系数平方和被约束小于某个常数的正则化方法

机器学习课堂笔记8

在没有约束的情况下，最小化Ein（W）的方法是梯度下降，就是往Ein梯度的反方向移动。在加了限制以后，可以将问题理解为：限制系数分布在一个以原点为中心的（高维）球面或球内，同时尽量向着Ein下降最快的方向（梯度反方向）移动。其几何意义可以理解成下图：

机器学习课堂笔记8

蓝色的负梯度方向是无约束情况下最小的Ein下降方向。这一向量可以拆分为球面法向量和切向量。若往法向量方向移动就会超出球面，因此只能往切向量方向移动，即绿色向量方向。在不断移动知道梯度反方向的切向量分量=0时，就达到了有约束情况下的最优解

使用拉格朗日乘数解决有约束的最优化问题：

机器学习课堂笔记8

增广误差：岭回归实际上等同于在原有的Ein方程中加入正则化项，然后做一个没有约束的最小化问题

机器学习课堂笔记8

正则化项的系数越大，C（即系数平方的和的约束）越小，假设就被约束得越严格，越不容易过拟合。岭回归的正则化项也叫权重衰减正则化

勒让德多项式：解决高次项系数被过分约束的问题：

机器学习课堂笔记8

在普通的多项式转化中，基底不是垂直的，因此当X定义域在-1都1之间，高次项的值会非常小，导致其系数很大，而很大的系数容易被岭回归的条件约束。因此采用正规化多项式转化，即勒让德多项式，可以解决这一问题

LASSO回归（L1）

设计正则化项的时候有三个原则：

1，根据对问题的理解设置（例如已知方程是偶函数，则可以设置正则化项专门惩罚奇次项系数）

2，正则化问题容易解决（即上述的岭回归，增加系数二次项，凸函数可微，容易求解）

3，正则化可以将原先的问题变得简单平滑

简单平滑意味着系数少，即系数是sparse稀疏的。

机器学习课堂笔记8

L1正则化的几何意义可以理解为上图。类似于L2几何意义的理解，当正则化最优时，梯度反方向在边界上的分量为0，这通常发生在边界（上图菱形）顶点处，顶点的系数比较稀疏，很多Wi=0，因此L1回归可以让系数稀疏化

机器学习课堂笔记8

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告