线性回归
线性回归(Linear Regreesion)就是对一些点组成的样本进行线性拟合,得到一个最佳的拟合直线。
最小二乘法
线性回归的一种常用方法是最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配。
代数推导
假设拟合函数为 y = a x + b y=ax+b y=ax+b,对于任意样本点 ( x i , y i ) (x_{i},y_{i}) (xi,yi),误差为 e = y i − ( a x i + b ) e=y_{i}-(ax_{i}+b) e=yi−(axi+b)。当损失函数 L = ∑ i = 1 n e i 2 L=\sum_{i=1}^{n}{e_{i}}^2 L=∑i=1nei2为最小时拟合度最好,即 ∑ i = 1 n ( y i − a x i − b ) 2 \sum_{i=1}^{n}(y_{i}-ax_{i}-b)^2 ∑i=1n(yi−axi−b)2最小。
函数 L = ∑ i = 1 n ( y i − a x i − b ) 2 L=\sum_{i=1}^{n}(y_{i}-ax_{i}-b)^2 L=∑i=1n(yi−axi−b)2分别是关于 a a a和 b b b的二次抛物线,没有最大值,所以当 L L L分别关于 a a a和 b b b的偏导等于 0 0 0时有最小值。
分别求出一阶偏导
∂ S ∂ a = − 2 ( ∑ i = 1 n x i y i − b ∑ i = 1 n x i − a ∑ i = 1 n x i 2 ) ∂ S ∂ b = − 2 ( ∑ i = 1 n y i − n b − a ∑ i = 1 n x i ) \frac{\partial{S}}{\partial{a}}=-2(\sum_{i=1}^{n}x_{i}y_{i}-b\sum_{i=1}^{n}x_{i}-a\sum_{i=1}^{n}{x_{i}}^2)\\ \frac{\partial{S}}{\partial{b}}=-2(\sum_{i=1}^{n}y_{i}-nb-a\sum_{i=1}^{n}x_{i})\\ ∂a∂S=−2(i=1∑nxiyi−bi=1∑nxi−ai=1∑nxi2)∂b∂S=−2(i=1∑nyi−nb−ai=1∑nxi)
让上式都等于 0 0 0,并且有 n x ‾ = ∑ i = 1 n x i n\overline{x}=\sum_{i=1}^{n}x_{i} nx=∑i=1nxi, n y ‾ = ∑ i = 1 n y i n\overline{y}=\sum_{i=1}^{n}y_{i} ny=∑i=1nyi。得到解为
a = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 , b = y ‾ − a x ‾ a=\frac{\sum_{i=1}^n(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^n(x_{i}-\overline{x})^2}, b=\overline{y}-a\overline{x} a=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y),b=y−ax