天天看点

数据回归方法(一)——一元回归

1.需求引入

有联系的事物之间存在着特定的关系。将事物抽象为变量,即变量之间存在着特定的关系。回归(regression)方法就是建立变量之间相互关系模型的数学方法。具体点说,在回归中,假定因变量Y和自变量X之间的模型,然后计算模型中的系数。

回归分类:

1.按照因变量个数、模型类型,可分为

①一元线性;②一元非线性;③多元线性;④多元非线性。

2.两种特殊方式:

  • 逐步回归:回归过程中可以调整变量数;
  • Logistic回归:以指数结构函数作为回归模型。

2.一元回归

2.1一元线性回归

一个自变量x和因变量Y的线性关系模型:

数据回归方法(一)——一元回归

Y——因变量,x——自变量,β0、β1 ——未知参数,称回归系数,ε ——随机误差,

数据回归方法(一)——一元回归

,var(ε)=σ2>0

如何建立回归方程?分二步:

①确定能否建立线性回归模型;

②确定如何对模型中未知参数β0、β1 进行评估。

下面详细解释其过程。

⑴对总体(x,Y)进行n次独立观测,获得n组观测值:

数据回归方法(一)——一元回归

⑵在直角坐标系中画出观测值对应的点(xi,yi) 的散点图。

如果这些点大致位于同一条直线附近,则认为Y与x之间存在线性关系。

⑶利用最小二乘法得到

数据回归方法(一)——一元回归

的最小二乘估计

数据回归方法(一)——一元回归

,估计公式为

数据回归方法(一)——一元回归

其中,

数据回归方法(一)——一元回归

于是建立了经验模型:

数据回归方法(一)——一元回归

⑷回归效果评价。

3个评价参数:

数据回归方法(一)——一元回归

SSE表征y的估计值与实际值的偏差程度。

数据回归方法(一)——一元回归

SST表征y与y平均值的偏差程度。

数据回归方法(一)——一元回归

SSR表征两种偏差之间的差值。

三个评价准则:

  • 决定系数
数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

,

数据回归方法(一)——一元回归

大,说明SSE相对SST小,表示总体上看,yi与

数据回归方法(一)——一元回归

比较靠近,验证模型可靠。

  • 剩余标准差
数据回归方法(一)——一元回归

S值越小,说明SSE越小,经验模型与实际越接近。

  • F检验
数据回归方法(一)——一元回归

通过R、S和F的值,判断模型是否具有良好线性关系。

⑸确定最精确的一元线性回归模型,并可以利用该模型对Y进行预测。

2.2一元非线性回归

       实际问题中,变量间的关系有的是非线性关系,应该用曲线进行拟合。

⑴解决的基本思路:

①对于曲线回归建模的目标函数

数据回归方法(一)——一元回归

,通过中间变换

数据回归方法(一)——一元回归

使目标函数线性化,化为一元线性函数

数据回归方法(一)——一元回归

形式。

②利用最小二乘估计法估计出参数a和b,用

数据回归方法(一)——一元回归

描述v与u之间的统计规律。

③用逆变换

数据回归方法(一)——一元回归

还原为目标函数形式的非线性回归方程。

⑵常见的非线性回归模型

这些常见模型常作为非线性回归拟合的参考模型。

①倒幂函数

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

函数图形

②幂函数

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

0<b<1

数据回归方法(一)——一元回归

b<0

数据回归方法(一)——一元回归

b>1

③指数函数

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

b>0

数据回归方法(一)——一元回归

b<0

④倒指数函数

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

b>0

数据回归方法(一)——一元回归

b<0

⑤对数函数

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

b>0

数据回归方法(一)——一元回归

b<0

⑥S型曲线

数据回归方法(一)——一元回归
数据回归方法(一)——一元回归

如何使用这些常见的非线性回归模型:

  1. 首先,根据实例中的变量趋势,结合常见的非线性函数的图像,大概可以判断实例属于哪种非线性关系。(实际这几种函数图形比较接近,使用时可能都要试一下)
  2. 然后,根据选择好的函数形式,利用中间变换,进行非线性拟合。
  3. 最后,从几个可能的拟合结果中,根据回归效果评价准则,选择最好的回归结果。

继续阅读