天天看点

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

回归分析

  • 1、概述
  • 2、分类
  • 3、线性回归
    • 3.1 单变量线性回归
    • 3.2 多变量线性回归
    • 3.3 线性回归分析的步骤:
  • 4、评价回归算法的指标
  • 5、Excel 实践

1、概述

\quad \quad 回归分析(Regression)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量 Y 对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系。

2、分类

  • 按照涉及的变量的多少,分为一元回归和多元回归分析;
  • 按照因变量的多少,可分为简单回归分析和多重回归分析;
  • 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

3、线性回归

3.1 单变量线性回归

3.2 多变量线性回归

3.3 线性回归分析的步骤:

  • 确定自变量和因变量,并计算自变量和因变量之间的相关系数。
  • 绘制散点图,确定回归模型类型
  • 估计模型参数,建立回归模型:最小二乘法进行模型参数估计
  • 对回归模型进行检验
  • 利用回归模型进行预测

4、评价回归算法的指标

1.R值

在统计学中R值是拟合优度指数,用来评价模型的拟合好坏等,取值范围是【-1,1】,越接近正负1越好。对应R平方来说越接近1越好。

R值的大小

2.P值

在统计学中P值是指(F检验或者T或者其余检验量)大于所求值时的概率,一般要小于给定α就说明检验显著。P值是检验样置信度的一个指标,一般我们认为p<=0.05时(一般选择这个显著水平),模型的信号不存在偶然性,模型的结果可靠。

5、Excel 实践

1、目标:研究销售收入和利润之间的关系,以更好的预测未来的销售目标

2、数据:数据如下

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

3、计算销售收入和利润两者的相关系数

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

相关系数为0.98,足以说明两者正强相关。

4、绘制散点图

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

5、回归分析

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

输出结果如下:

数据分析之回归分析1、概述2、分类3、线性回归4、评价回归算法的指标5、Excel 实践

1、 先看回归统计表,Multiple R即相关系数R的值,和我们之前做相关分析得到的值一样,大于0.8表示强正相关。

2、 回归统计表中的R Square是R平方值,R平方即R的平方,又可以叫判定系数、拟合优度,取值范围是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不错,60%以下的就需要修正模型了。这个案例里R平方0.97,相当不错。

3、 Adjusted R是调整后的R方,这个值是用来修正因自变量个数增加而导致模型拟合效果过高的情况,多用于衡量多重线性回归。

4、 第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,Significance F是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即Significance F值,F检验主要是检验因变量与自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当,越小越显著。这个案例里F值很小,说明因变量与自变量之间显著。

5、 残差是实际值与预测值之间的差,残差图用于回归诊断,回归模型在理想条件下的残差图是服从正态分布的。

6、 第三张表我们重点关注P-value,也就是P值,用来检验回归方程系数的显著性,又叫T检验,T检验看P值,是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义,如果0.01<P值<0.05,则结果具有显著的统计学意义,如果P<=0.01,则结果具有极其显著的统计学意义。

T检验是看某一个自变量对于因变量的线性显著性,如果该自变量不显著,则可以从模型中剔除。 p值越小,越好。

7、 从第三张表的第一列我们可以得到这个回归模型的方程:

y=0.13x-2.46,此后对于每一个输入的自变量x,都可以根据这个回归方程来预测出因变量Y。

继续阅读