天天看點

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

回歸分析

  • 1、概述
  • 2、分類
  • 3、線性回歸
    • 3.1 單變量線性回歸
    • 3.2 多變量線性回歸
    • 3.3 線性回歸分析的步驟:
  • 4、評價回歸算法的名額
  • 5、Excel 實踐

1、概述

\quad \quad 回歸分析(Regression)是确定兩種或兩種以上變數間互相依賴的定量關系的一種統計分析方法,它主要研究一個随機變量 Y 對另一個變量(X)或一組(X1,X2,…,Xk)變量的相依關系。

2、分類

  • 按照涉及的變量的多少,分為一進制回歸和多元回歸分析;
  • 按照因變量的多少,可分為簡單回歸分析和多重回歸分析;
  • 按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。

3、線性回歸

3.1 單變量線性回歸

3.2 多變量線性回歸

3.3 線性回歸分析的步驟:

  • 确定自變量和因變量,并計算自變量和因變量之間的相關系數。
  • 繪制散點圖,确定回歸模型類型
  • 估計模型參數,建立回歸模型:最小二乘法進行模型參數估計
  • 對回歸模型進行檢驗
  • 利用回歸模型進行預測

4、評價回歸算法的名額

1.R值

在統計學中R值是拟合優度指數,用來評價模型的拟合好壞等,取值範圍是【-1,1】,越接近正負1越好。對應R平方來說越接近1越好。

R值的大小

2.P值

在統計學中P值是指(F檢驗或者T或者其餘檢驗量)大于所求值時的機率,一般要小于給定α就說明檢驗顯著。P值是檢驗樣置信度的一個名額,一般我們認為p<=0.05時(一般選擇這個顯著水準),模型的信号不存在偶然性,模型的結果可靠。

5、Excel 實踐

1、目标:研究銷售收入和利潤之間的關系,以更好的預測未來的銷售目标

2、資料:資料如下

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

3、計算銷售收入和利潤兩者的相關系數

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

相關系數為0.98,足以說明兩者正強相關。

4、繪制散點圖

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

5、回歸分析

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

輸出結果如下:

資料分析之回歸分析1、概述2、分類3、線性回歸4、評價回歸算法的名額5、Excel 實踐

1、 先看回歸統計表,Multiple R即相關系數R的值,和我們之前做相關分析得到的值一樣,大于0.8表示強正相關。

2、 回歸統計表中的R Square是R平方值,R平方即R的平方,又可以叫判定系數、拟合優度,取值範圍是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不錯,60%以下的就需要修正模型了。這個案例裡R平方0.97,相當不錯。

3、 Adjusted R是調整後的R方,這個值是用來修正因自變量個數增加而導緻模型拟合效果過高的情況,多用于衡量多重線性回歸。

4、 第二張表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F統計量,Significance F是回歸方程總體的顯著性檢驗,其中我們主要關注F檢驗的結果,即Significance F值,F檢驗主要是檢驗因變量與自變量之間的線性關系是否顯著,用線性模型來描述他們之間的關系是否恰當,越小越顯著。這個案例裡F值很小,說明因變量與自變量之間顯著。

5、 殘差是實際值與預測值之間的差,殘差圖用于回歸診斷,回歸模型在理想條件下的殘差圖是服從正态分布的。

6、 第三張表我們重點關注P-value,也就是P值,用來檢驗回歸方程系數的顯著性,又叫T檢驗,T檢驗看P值,是在顯著性水準α(常用取值0.01或0.05)下F的臨界值,一般以此來衡量檢驗結果是否具有顯著性,如果P值>0.05,則結果不具有顯著的統計學意義,如果0.01<P值<0.05,則結果具有顯著的統計學意義,如果P<=0.01,則結果具有極其顯著的統計學意義。

T檢驗是看某一個自變量對于因變量的線性顯著性,如果該自變量不顯著,則可以從模型中剔除。 p值越小,越好。

7、 從第三張表的第一列我們可以得到這個回歸模型的方程:

y=0.13x-2.46,此後對于每一個輸入的自變量x,都可以根據這個回歸方程來預測出因變量Y。

繼續閱讀