天天看点

线性回归入门

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

一元线性回归方程的形式

如果只有一个自变量X,而且因变量Y和自变量X之间的数量变化关系呈近似线性关系,就可以建立一元线性回归方程,由自变量X的值来预测因变量Y的值,这就是一元线性回归预测。

线性回归入门

X是自变量,其中 

线性回归入门

为截距项,

线性回归入门

为斜率,

线性回归入门

为误差项

线性回归入门

如下图所示:

线性回归入门

确定参数一定会有一个衡量标准的,这个衡量标准一般使用误差平方和,简单来说就是使用平方误差和衡量预测值h和真实值的差距,但是为什么是平方误差呢?大家知道他的来历吗?在这里解释一下:

线性回归入门

中间的线就是拟合的线,那么我希望找到一个最佳的拟合线,如何衡量他呢?上面提到可以使用误差平方和,那么基于什么误差呢?第一个想到的就是基于数据点到回归线的距离之和,求其所有距离并求和,得到一个距离误差,如上图其中一个数据点的距离为d1,求出图中所在所有的距离相加求极小值即可,但是问题是求距离还是挺复杂的,有开方项,数学中不好计算,因此人们又提出直接使用函数值的差也是可以的,因为当函数值的差最小时,距离也是最小的,这样可行,但是函数值相减有正有负因此需要加上绝对值,如上图的|y-^y|,因为有绝对值不好计算,因此直接平方就不用考虑正负的事了,所以最终的误差距离就使用误差平方和进行衡量了即:

真实值y,预测值为y',则平方误差为:(y-y')2

寻找合适的参数使的误差平方和

线性回归入门

最小

线性回归入门

我们的优化函数就找到了,下面只需求出使误差平方和极值最小的参数(系数)即K,B

线性回归入门

,使用最小二乘法(无偏估计)或者求偏导都可以求出参数

线性回归入门

其中

线性回归入门

是数据,

线性回归入门

是均值,把数据带进去就可以确定系数了,最简单的一元线性回归就求出来了。

如果自变量X有两个,就是二元; 自变量X有多个,就是多元分析。Y=K1X1+K2X2+......+KnXn+B

多元线性回归分析

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

多元和一元差不多,不同的是一元回归是线,而多元回归就是超平面了,例如二元回归就是平面,表达式就是形如:

线性回归入门

假设训练数据为:

线性回归入门

求和可以写成矩阵的形式:

线性回归入门

以二元回归为例子,如下:

线性回归入门
线性回归入门

如果是三元以上的回归就是超平面了。

后续逻辑回归

回归分析的主要算法包括:

线性回归(Linear Regression)

逻辑回归(Logistic regressions)

多项式回归(Polynomial Regression)

逐步回归(Step Regression)

岭回归(Ridge Regression)

套索回归(Lasso Regression)

弹性网回归(ElasticNet)

继续阅读