線性回歸分析流程圖如下：

一、基本關系檢視

線性回歸分析是用于研究定量資料之間的影響關系的，通常先有相關關系，才會有回歸影響關系。是以一般在進行線性回歸分析之前，需要先檢視一下資料之間的相關關系，可以通過檢視變量之間的相關系數或者檢視散點圖的方式進行。

目前有一家公司，想要研究員工的初始工資、工作時間、教育程度、工作經驗是否會影響員工的目前工資，如果有影響，各個因素對目前工資的影響大小如何，故通過多元線性回歸進行分析（資料純屬虛構，僅做教學使用）。

首先檢視資料之間的相關關系，分别使用散點圖和相關系數進行檢視。

1、散點圖

散點圖用于直覺展示自變量X與因變量Y之間的關系情況，通常用于探索性研究階段。使用散點圖檢視工資與初始工資、教育程度、工作時間、工作經驗之間的關系，利用SPSSAU可視化->散點圖得到分析結果如下：

上圖展示了分别以初始工資、教育程度、工作經驗為X軸，工資為Y軸得到的散點圖，從散點圖可以看出，工資與初始工資、教育程度、工作經驗之間關系為線性。

上圖為以工作時間為X軸，工資為Y軸繪制的散點圖，從上圖可以看到，工作時間與工資之間并沒有明顯的關系。但是散點圖的判斷比較主觀，不能說因為看起來沒有相關關系，就認為确實沒有相關關系，需要資料進行證明，故進行相關分析，檢視變量間的相關系數，進一步進行資料關系檢視。

2、相關分析

相關分析用于分析變量之間是否具有相關關系，回歸分析用于分析影響關系，通常先有相關關系，才會有回歸影響關系。是以在進行回歸分析之前，通常先進行相關分析，檢視自變量與因變量之間的相關關系。

使用SPSSAU相關分析，得到工資與初始工資、教育程度、工作經驗、工作時間兩兩之間的相關系數表如下：

從上表可以看出，工資與工作時間之間的相關系數為0.101接近0，同時對應p值大于0.05沒有呈現出顯著性，而初始工資、教育程度、工作經驗與工資之間的p值均小于0.01，呈現出顯著性；是以将工作時間從回歸方程中剔除。

經過散點圖與相關分析得到，初始工資、教育程度、工作經驗都與工資之間具有顯著相關關系，而工作時間與工資之間并沒有相關關系，故将工作時間從線性回歸模型中移除。

接下來以工資作為因變量Y，初始工資、教育程度、工作經驗作為自變量X進行線性回歸分析。

二、總體顯著性檢驗

使用多元線性回歸分析過程中，顯著性檢驗應該包括兩部分内容：對多個自變量與因變量這個整體的顯著性檢驗（F檢驗），以及每個自變量對因變量影響的顯著性檢驗（t檢驗），二者都是對線性回歸的顯著性檢驗，但是檢驗目的不同。特别提示：僅僅在一進制線性回歸分析過程中，F檢驗與t檢驗效果是等價的，因為此時隻涉及到一個自變量。

首先進行總體顯著性檢驗，是使用F檢驗進行的，可以判斷多元線性回歸方程是否成立。SPSSAU多元線性回歸分析F檢驗輸出結果如下：

從上表可以看出，統計量F=4009.94，對應的p值小于0.05，是以多元線性回歸通過總體顯著性檢驗，回歸模型是有意義的，說明至少有1個X會對因變量Y産生影響。

接下來檢視每個自變量對因變量影響的顯著性，即回歸系數顯著性檢驗。

三、回歸系數顯著性檢驗

回歸系數顯著性檢驗是指每個自變量對因變量影響的顯著性檢驗，使用t檢驗進行。SPSSAU輸出每個自變量對因變量影響的t檢驗結果如下：

從上表可以看出，初始工資、教育程度與工作經驗三個自變量對應t檢驗的p值均小于0.05，呈現出顯著性特征。說明三個自變量X對因變量Y（工資）均呈現出顯著性。

多元線性回歸分析同時會輸出一些其他的名額，接下來将逐個進行說明。

四、其他名額解讀

（1）VIF值

VIF值用于共線性判斷，共線性是指線上性回歸分析時，出現的自變量之間彼此相關的現象。共線性出現的原因可能是由于多個自變量之間本身就存在很強的相關關系；或者由于收集的樣本量不足；再或者由于在回歸分析時錯誤的使用虛拟變量等都可能導緻共線性問題的出現。

使用SPSSAU進行多元線性回歸時，分析結果會自動輸出VIF值，用來判斷是否存在共線性。一般VIF值大于10（嚴格大于5），則認為存在嚴重的共線性。SPSSAU輸出結果如下：

從上表可以看出，VIF值均小于10，說明不存在共線性問題。但有些文獻要求VIF值小于5才認為不存在共線性問題，嚴格來看，工作經驗的VIF=6.76>5，說明可能存在一定的共線性問題。如果認為資料存在共線性，可以手動移除相關性非常高的變量，或者改用逐漸回歸、嶺回歸等方法進行分析。此處認為共線性可以忽略，故不再進行贅述。

（2）R方與調整後R方

R方用于分析模型的拟合優度，又稱決定系數。R方的值介于0~1之間，代表模型的拟合程度，一般認為越大越好。例如R方為0.5，說明自變量可以解釋因變量50%的變化原因。但是實際研究中并不會過多關注R方的大小，因為進行回歸分析更多的主要關注自變量對因變量是否具有影響關系。調整後R方并沒有實際意義，通常在進行模型調整（增加或者減少變量個數時）使用，用于判斷你的模型中該不該加入你想加入的變量。

SPSSAU輸出結果如下圖：

從上表可以看出，R方=0.973，說明自變量可以解釋因變量97.3%的變化原因，模型拟合較好。當進行模型調整時，可以關注調整後R方的變化。

（3）D-W值

模型的随機幹擾項互相獨立或不相關，是多元線性回歸模型的基本假設之一。随機幹擾項是資料本身的不确定性帶來的誤差。如果模型的随機幹擾項違背了互相獨立的基本假設，稱為存在自相關性。自相關性可以使用D-W檢驗進行分析。

D-W檢驗（杜賓-瓦特森檢驗），計量經濟，統計分析中常用的一種檢驗序列一階自相關最常用的方法。SPSSAU在進行線性回歸分析時，輸出D-W值如下：

一般認為，如果D-W值在2附近（1.7~2.3之間），說明不存在自相關性，模型建構比較好，反之如果D-W值明顯偏離2，說明模型具有自相關性，模型建構較差。

從上表得到，本次分析的D-W值=0.438，明顯偏離2，說明模型存在自相關性，模型建構較差。但是由于一般對于時間序列分析才會考慮DW值，本次分析資料并非時間序列，是以暫且忽略自相關性。如果在分析時需要自相關問題修正，可以使用廣義差分法，在此不再進行深入分析。

（4）殘差

在進行分析時，如果有需要，可以選擇勾選【儲存預測和殘內插補點】選項，SPSSAU會輸出殘內插補點和預測值。

針對殘內插補點，一般會檢驗殘內插補點的正态性。如果殘差直覺上滿足正态性，說明模型建構較好，反之說明模型建構較差。SPSSAU利用殘差繪制直方圖，得到結果如下：

從直方圖可以看出，資料呈現出的分布并不對稱，但是從形狀來看，直方圖近似呈現“中間高，兩頭低”的鐘形分布形狀，說明資料為可接受的正态分布。即說明殘差符合正态分布，模型建構較好。如果殘差正态性非常糟糕，建議重新構模組化型，比如對因變量Y取對數後再次構模組化型等。

以上名額分析完成後，最後進行歸回分析結果解讀，判斷哪些自變量對因變量有顯著影響，影響方向、影響大小是怎樣的；建構回歸分析模型。

五、回歸分析模型

SPSSAU輸出回歸分析結果如下：

（1）模型公式

從上表可以看出，以初始工資、教育程度、工作經驗為自變量，工資為因變量進行多元線性回歸分析，得到回歸模型公式為：工資=18326.101+ 0.353*初始工資-280.300*教育程度+ 144.955*工作經驗。

特别提示：建構回歸模型使用非标準化回歸系數，它是方程中不同自變量對應的原始回歸系數，反映了在其他自變量不變的情況下，該自變量每變化一個機關對因變量作用的大小。通過非标準化回歸系數建構的回歸方程，才可以對因變量進行預測。

（2）影響大小比較

自變量對因變量影響大小的比較是通過标準化回歸系數進行比較的。标準化回歸系數的絕對值越大，說明該自變量對因變量的影響越大。

标準化回歸系數，是對自變量和因變量同時進行标準化處理後所得到的回歸系數，資料經過标準化處理後消除了量綱、數量級等差異的影響，是的不同變量之間具有可比性，是以使用标準化回歸系數比較不同自變量對因變量的影響大小。

從線性回歸結果可以看出，初始工資、教育程度、工作經驗的标準化回歸系數分别是：0.168、-0.046、0.881；是以工作經驗對工資的影響最大，其次是初始工資，影響最小的是教育程度，且初始工資與工作經驗對工資的影響是顯著正向的，而教育程度對工資的影響是顯著負向的。

（3）coefPlot

SPSSAU會輸出coefPlot圖，用于展示具體的回歸系數值和對應的置信區間，可直覺檢視資料的顯著性情況，如果說置信區間包括數字0則說明該項不顯著，如果置信區間不包括數字0則說明該項呈現出顯著性。

具體數值還可通過SPSSAU輸出的回歸系數中間過程值表格檢視，見下圖：

從上表可以看出，3個自變量回歸系數對應的置信區間均不包括0，說明3個自變量對因變量的影響均呈現出顯著性。

綜上所述，探究工資的影響關系，經過基本關系分析後，得到與因變量有相關關系的自變量後進行多元線性回歸分析，發現初始工資、教育程度、工作經驗對工資有顯著影響，其中工作經驗對工資的影響最大，多元線性回歸分析結束。

SPSS多元線性回歸分析流程

一、基本關系檢視

二、總體顯著性檢驗

三、回歸系數顯著性檢驗

四、其他名額解讀

五、回歸分析模型

繼續閱讀

第八章方差分析以及線性回歸(2)一進制線性回歸

線性回歸入門

機器學習計算一進制一次和二進制一次方程的系數（sklearn和paddle）

LR梯度下降法MSE演練

R語言近似貝葉斯計算MCMC（ABC-MCMC）軌迹圖和邊緣圖可視化

logistics判别與線性模型中的問題

幾句話梳理Linear Regression、Logistics Regression、Softmax Regression之間的共性與差別

數學模組化基本算法---線性規劃線性規劃

拓端資料tecdat|R語言分段線性回歸分析預測車輛的制動距離

【視訊】線性回歸中的貝葉斯推斷與R語言預測勞工工資資料|資料分享

機器學習之線性回歸（Linear Regression）

【AndrewNg機器學習】線性回歸(Linear Regression)1 單變量線性回歸2 多變量線性回歸

線性回歸算法梳理機器學習的一些概念線性回歸

線性回歸算法梳理1. 機器學習的一些概念2. 線性回歸的原理3. 線性回歸損失函數、代價函數、目标函數4. 優化方法5. 線性回歸的評價名額6. 線性回歸sklearn參數詳解

線性回歸算法梳理（打卡task-1）

【多變量線性回歸】學習記錄序思路實作終