轉自個人微信公衆号【Memo_Cleon】的統計學習筆記:因變量無序多分類資料的logistic回歸。
因變量為無序多分類資料,或者因變量雖為有序多分類但不滿足比例優勢假定(平行性檢驗P>0.05),可采用無序多分類的logistic回歸進行分析。當然當結局變量無序,自變量隻有一個且為分類變量時,可以直接采用卡方檢驗;結局變量有序,自變量隻有一個且為分類變量時,可以直接采用非參數檢驗。
無序多分類的logistic回歸模型與有序多分類的logistic回歸模型不同
。有序多分類的logistic回歸采用的是累積logit模型,進行logit變換的是因變量有序取值水準的累積機率;而無序多分類的logistic回歸采用的是廣義logit模型,是用因變量的各個水準(除參照水準外)與參照水準比值的自然對數來建立模型方程,當水準數為2時,該模型等價于二分類資料的logistic回歸,是以該模型可以看做是二分類logistic回歸模型的擴充。因變量y是有n個水準的無序多分類變量,進行無序多分類的logistic回歸時可以産生n-1個廣義logit模型。參照水準R的陽性機率記為πR,第k個水準(k=1,2,…n)的陽性機率分别為πk,則有π
1+π
2+…π
n=1。自變量x有m個,第k個水準第i個自變量(i=1,2,…m)Xi系數為βki。

以因變量為4水準(第4水準為參照水準),自變量有m個為例,模型可以表示為:
顯然π1+π2+π3+π4=1,如希望比較1和2,可以将相應的兩個公式相減即可得到相應的函數,同理可以比較1和3,或者2和3。當然我們也可以直接對參照水準進行修改。
示例:某研究人員欲了解不同社群和性别之間成年居民擷取健康知識途徑是否不同,對2個社群的314名成人進行了調查,結果見下表。變量指派為:社群(社群A=0,社群B=1)、性别(男=0,女=1)、擷取健康知識途徑(傳統大衆媒介=1,網絡=2,社群宣傳=3)。請拟合社群和性别對居民擷取健康知識途徑的多分類logistic回歸模型。
:Data>>Weight Cases…,将[頻數]進行權重
:Analyze>>Regression>>Multinomial Logistic…
l 因變量:獲得途徑
l 因素:社群、性别
因變量和因素必須是分類變量,協變量是試驗設計中不為研究者關注但對結果會産生影響的獨立解釋變量,可以分類變量也可以是連續型變量。在[因變量]下方的[參考類别(Reference Category…)]中可以對參考類别和類别順序進行設定,預設的參考類别是最後一個類别,預設的類别順序為升序。升序時因變量取值最小的為第一類别,而降序則将取值最小的為最後一類。【模型】:可以指定分析的模型,預設是隻分析主效應,也可以進行全因素分析(主效應+互動作用),當然也可以進行自定義分析。選中自定義/逐漸(Custom/Stepwise)後,除了可以自定義模型外,還可以實作變量的篩選,類似于
二分類logistics回歸中的Block和Method。本例取預設的主效應分析。
【統計量】:除預設選項,同時選中資訊準則(輸出AIC和BIC)、單元格機率、分類表及拟合優度檢驗。定義子總體預設選項為對所有的自變量和協變量計算單元格機率并進行拟合優度檢驗。
【收斂準則】:主要對疊代進行設定。
【選項】:可對進入和剔除标準及其檢驗方法進行設定。【儲存】:可以儲存新變量[估計反應機率]、[預測分類]、[預測分類機率]、[實際分類機率]。
4、結果 【案例處理概要】:分析示例的基本情況。
:與隻含常數項的初始模型相比,最終模型的AIC(Akaike資訊準則)、BIC(貝葉斯資訊準則)、負2倍的對數似然值(-2LL)均有下降。-2LL值從80.877下降至36.821,下降了44.056(卡方值),似然比卡方檢驗具有統計學意義(P<0.001),說明模型納入性别和社群兩個變量中至少有一個偏回歸系數不為0。
:顯示Pearson拟合優度檢驗和Deviance拟合優度檢驗結果。此兩種方法實際是檢驗目前模型預測值與樣本實測值的比較,兩者結果P值均大于0.05,表示拟合良好。但要注意這兩種方法對自變量的樣本量有一定要求,當自變量較多或者含有連續變量時一般不采用這兩種方法的檢驗結果。
:輸出三種僞決定系數。對分類資料的統計分析,不需要過于在意這三種僞決定系數過低的問題。
:表格顯示最終模型的AIC、BIC、-2LL值(與【模型拟合資訊】表的結果一緻),以及簡約模型(去掉某個自變量效應後的模型)的AIC、BIC、-2LL值,卡方檢驗統計量為簡約模型與最終模型的-2LL內插補點。結果顯示社群和性别對模型的貢獻均有統計學意義。
SPSS中因變量預設以取值高水準為參照水準(本例為社群宣傳),如希望将其他取值水準作為參照水準,可在資料中修改因變量各水準的指派,或者通過[參考類别(Reference Category…)]來指定。自變量也預設取值水準高的為參照水準,也可以修改自變量各水準的指派來改變參照水準,如果将變量作為協變量納入分析則低水準會被預設為參照水準。是以本例中社群B(社群=1)和女(性别=1)為參照水準,其參數值為0,一般是研究者不感興趣的參數,即備援參數。
從結果來看,社群A(社群=0)的回歸系數為負值,P=0.001<0.05,OR=0.370。具有統計學意義表明社群A回歸系數不為0(社群B的回歸系數為0)。回歸系數為負,表明與社群宣傳相比,社群A(比社群B)更不願意通過傳統大衆傳媒獲得健康知識,或者說社群A更願意通過社群宣傳獲得健康知識;OR=0.370,即相比社群宣傳,社群A通過傳統大衆傳媒獲得健康知識是社群B的0.37倍,或者更符合表達邏輯的說法是社群A通過社群宣傳獲得健康知識是社群B的2.70倍(1/0.370),社群B通過傳統大衆傳媒獲得健康知識是社群A的2.70倍。當然嚴格來說OR的表達應該是:社群B選擇傳統大衆傳媒與選擇社群宣傳的比值 是 社群A相應比值的2.70倍。
同理可知與社群宣傳相比,男性(比女性)更願意通過傳統大衆傳媒獲得健康知識,OR=3.410。與網絡宣傳相比,社群A(與社群B)在通過傳統大衆媒體獲得健康知識方面沒有統計過學差異(Wald χ2=1.7,P=0.192>0.05),但男性更傾向于選擇網絡獲得健康知識(Wald χ2=8.126,P=0.004<0.05,OR=2.213)。
如想比較傳統大衆媒介與網絡,可直接将相應的模型方程相減,
大體可以判斷與網絡途徑相比,社群A更不傾向傳統大衆傳媒(也就是說更傾向于網絡),男性更傾向傳統大衆傳媒,但是否有統計學意義尚需進一步檢驗。可在多變量回歸對話框中,通過[參考類别(Reference Category…)]将參考類别自定義為網絡(Custom Value=2),可獲得如下結果,同上述計算結果一緻,解讀略。
另外,自變量為多分類時也要遵循同進同出的原則。
【分類表】:觀測頻數與預測頻數的差異。對角線為正确判斷的頻數,而非對角線為判斷錯誤的個數。預測正确率一般,有待改善。
:較為接近,拟合良好。
轉自個人微信公衆号【Memo_Cleon】的統計學習筆記:因變量無序多分類資料的logistic回歸。