
多數情況下,變量關系研究是問卷研究的核心,變量關系研究包括相關分析,線性回歸分析,中介作用分析,調節作用分析等,并且如果因變量Y值是分類資料,則會涉及Logistic回歸分析。相關分析是研究兩兩變量之間的相關關系情況,線性回歸分析或者Logistic回歸分析均是研究影響關系,差別在于線性回歸分析的因變量Y值是定量資料,而Logistic回歸分析的因變量Y值是分類資料。中介作用或者調節作用研究是更深入的關系研究分析,會在之後的文章中介紹。本文重點對相關分析和回歸分析的常見問題進行解答。
0)相關和回歸的關系和差別
相關分析和回歸分析,二者既有聯系,又有差別。接下來詳細說明。
相關分析:研究有沒有關系,關系強度如何。 回歸分析:研究影響關系如何,有沒有影響關系,影響關系如何。相關分析是研究有沒有關系,回歸分析是研究影響關系。明顯地,相關分析是基礎,然後再進行回歸分析。首先需要知道有沒有相關關系;有了相關關系,才可能有回歸影響關系;如果沒有相關關系,是不應該有回歸影響關系的。因而從分析角度,應該先進行相關分析,完成相關分析後,确認有了相關分析,再進行回歸分析。
有時候會出現奇怪的現象,比如:
有回歸影響關系,但是卻沒有相關關系【此時建議以‘沒有相關關系作為結論’】
負向影響關系,但卻是正向相關關系【此時建議以‘有相關關系但沒有回歸影響關系作為結論’】
1)回歸分析缺少Y
回歸分析是研究X對于Y的影響。有時候由于問卷設計問題,導緻直接缺少了Y,建議可以考慮将X所有題項概括計算平均值來表示Y。(SPSSAU使用者使用“生成變量”的平均值功能)
另提示:如果問卷中并沒有設計出Y對應的題項,沒有其它辦法可以處理
2)是否需要進行散點圖分析?散點圖可以直覺展示兩個變量之間的關系,通常情況下需要首先進行散點圖分析,再進行相關關系分析,接着進行回歸分析。
3)相關分析應該選擇Pearson還是Spearman?相關系數分為兩種,分别是Pearson相關系數和Spearman相關系數。絕大多數情況下均使用Pearson相關系數,軟體預設使用Pearson相關系數。如果研究時發現研究變量嚴重的不正态分布,此時使用Spearman相關系數較為合适。
4)相關分析結果與線性回歸分析結果沖突?如果相關分析結果與線性回歸分析沖突,比如沒有相關關系,但是卻呈現出顯著的回歸影響關系。也或者變量之間為顯著正相關,但是卻出現負向回歸影響關系。此時應該以相關分析結論為準,出現此類問題的原因很可能是Suppressor effect(壓抑效應)。
5)分類資料作為自變量如何進行回歸分析?如果分類資料希望作為自變量放入模型,應該首先将分類資料進行虛拟變量處理,然後再放入模型中,虛拟變量處理可參考5.2.8部分。
6)分類資料作因變量時的分析方法。如果分類資料作為因變量,此時應該使用Logistic回歸分析,具體Logistic回歸分析的類别選擇,可以參考10.2.4部分。
7)回歸分析沒有通過F檢驗,但回歸系數呈現出顯著性。如果回歸分析并沒有通過F檢驗,此說明所有自變量X均不應該對因變量Y産生影響關系,即研究模型沒有意義。此時即使回歸系數呈現出顯著性,也應該以F檢驗結果為準,即說明自變量X不會對因變量Y産生影響關系。
8)回歸分析時VIF值高于10。如果VIF值高于10,說明具有嚴重的多重共線性問題,此時模型結論不可信。針對多重共線性問題,最佳的處理辦法是對題項進行探索性因子分析,利用探索性因子分析得到的因子得分重新進行回歸分析。除此之外,也可以将自變量進行相關分析,找出相關關系最為緊密的研究變量,将此類變量移出回歸分析重新進行分析。
9)回歸分析時,某變量沒有呈現出顯著性,但理論上确認肯定應該顯著。如果回歸分析時某研究變量沒有呈現出顯著性,但是理論上認為應該具有顯著性,此時可以考慮對樣本進行篩選處理,以及将樣本個人背景資訊作為控制變量加入模型,重新進行分析。
10)R平方值很小,低于0.4。R平方值表示模型的解釋力度,即模型拟合度情況,此值介于0~1之間,數值越大,說明模型拟合度越高,通常情況下越大越好。實際研究中,此名額的意義相對較小,即使此名額小于0.4也沒有關系。應該重點關注自變量X與因變量Y之間的回歸關系,即自變量是否呈現出顯著性。
11)調整R平方值為負數。調整R平方值可以為負數,如果出現負數時,通常情況下R平方值會非常小,接近于0,模型基本沒有意義。
12)控制變量是什麼,用處是什麼?控制變量,實質就是自變量,但通常該類變量并非研究核心變量,其可能會對模型産生幹擾,是以也需要将其放入模型,并且稱之為控制變量。通常情況下控制變量為樣本基本背景資訊題項,比如性别,學曆,年齡,收入等。将控制變量放入回歸模型中,目的在于防止此類變量對于研究帶來的幹擾。通常情況下,控制變量為諸如性别,學曆等為分類資料,因而多數情況下控制變量需要進行虛拟變量處理。
13)探索性因子分析儲存得分是否可以作為自變量?如果一個研究變量對應多個題項,常見的做法是将多個題項計算平均值,并且以平均值代表整體研究變量。如果對研究變量進行探索性因子分析,并且儲存因子分析,也可以利用因子得分去代表對應研究變量,進行相關或者回歸分析。
14)Hosmer and Lemeshow檢驗對應P值小于0.05。進行二進制Logistic回歸分析時,如果Hosmer and Lemeshow檢驗顯示P值小于0.05,即說明模型拟合情況與實際情況有較大出入,模型并不理想。可以考慮對自變量資料重新組合處理,也或者對因變量資料重新組合處理等多種方法測試,尋找出最優結果。
15)整體預測準确率低于70%。如果二進制Logistic回歸分析顯示整體預測準确率較低,低于70%時,說明模型整體情況不佳。可以考慮對自變量進行重新組合處理,或者對個别無意義自變量進行删除處理等,多種處理對比,找出最優結果。
16)輸出結果中某項不顯示P值。如果二進制Logistic回歸分析中有分類資料,則模型會以某項作為參照對比項,參照對比項不會輸出P值等名額。
更多常見問題解答
SPSSAU:如何設計一份合格的調查問卷?
SPSSAU:問卷調查資料應該怎麼分析?
SPSSAU:SPSS資料分析中的常見問題(統計學基礎篇)
SPSSAU:SPSS資料分析中的常見問題(問卷篇)
SPSSAU:資料分析中的常見問題——SPSS操作問題
SPSSAU:SPSS資料分析中的常見問題(信效度篇)
(SPSSAU支援線上進行資料分析,拖拽點一下的傻瓜操作,提高分析效率。同時針對每一個分析方法SPSSAU的幫助手冊裡都有詳細的講解和案例說明,想要獲得更多内容可登入SPSSAU官方網站。)
SPSSAU-線上SPSS分析軟體www.spssau.com?100001000