线性回归算法
- 线性回归算法
- 线性回归分类
- 单变量回归
- 多变量回归
- 求拟合方程方法
- 最小二乘法
- 岭回归
- Lasso回归
线性回归算法
线性回归分类
单变量回归
单变量线性回归的模型:
我们需要使用到Cost Function(代价函数),代价函数越小,说明线性回归地越好(和训练集拟合地越好),当然最小就是0,即完全拟合。
多变量回归
多变量线性回归之前必须要Feature Scaling。思想:将各个feature的值标准化,使得取值范围大致都在-1<=x<=1之间。
定义出多变量线性回归的模型:
求拟合方程方法
最小二乘法
“最小二乘法”的核心就是保证所有数据偏差的平方和最小。(“平方”的在古时侯的称谓为“二乘”)。
岭回归
-
预测精度: 这里要处理好这样一对问题, 即样本的数量 和特征的数量
。 时, 最小二乘法回归会有较小的方差
。 时, 容易产生过拟合
。 时, 最小二乘回归得不到有意义的结果
岭回归(Ridge Regression)是在平方误差的基础上增加正则项。通过确定 lamda 的值 可以使得在方差和偏差之间达到平衡。效果如同添加L2正则化。
- 岭回归优于最小二乘回归的原因在于方差-偏倚选择。随着 lambda 的增大, 模型方差 减小而偏倚 (轻微的) 增加。
- 岭回归的一个缺点: 在建模时, 同时引入 个预测变量, 罚约束项可以收缩这些预测 变量的待估系数接近 0 ,但并非恰好是
- 惩罚项系数的选择一直都是一个头疼的问题。