點選學習全部醫學統計學與SPSS教程
如何科學地建構回歸模型系列 1.一道饕餮大餐來了!手把手教你如何科學地建構回歸模型! 2.一文彙總三大回歸的基本應用條件、診斷與處理方法 3.回歸分析時何時設定啞變量?如何設定? 4. 當回歸分析模型遇到連續型自變量,我該怎麼辦? 5. 吃巧克力預防高血壓?一文學會P trend計算,掌握趨勢性分析 6. 你隻會“先單後多”嗎?如何篩選自變量建立多因素回歸模型 7. 你認識它嗎?--有向無環圖(DAG):回歸分析中自變量篩選的指導思想 8. 中介變量一直很重要,一直被忽視!如何在回歸分析中考慮中介變量? 9. 控制混雜偏倚的回歸自變量篩選法,強烈推薦Change-in-Estimate法 10 回歸分析篩選自變量,不推薦逐漸回歸法?那我應該怎麼辦?
SPSS教程44 單、多因素回歸結果結果沖突的處理方法
這一篇接着介紹先單後多的統計模組化方法。
先單後多,最令人沮喪的,莫過于單因素P<0.05,而多因素大多數沒有統計學意義,甚至一個都沒有。這可怎麼辦!!怎麼回事!!不僅如此,有些時候單因素>0.05,多因素可以出現統計學差異的驚喜局面哦。
1
單因素、多因素結果沖突原因
這種情況的原因是什麼?大概原因包括:
(1)多因素回歸自變量個數太多,樣本量不夠,模組化失敗
(2)存在着混雜變量
(3)存在着中介變量
(4)存在着互動效應
(5)排除中介變量後,存在着其它多重共線性
主要的原因是存在着混雜變量和中介變量。
2
單因素、多因素結果沖突如何處理
如何處理?
當然,最重要的是,在多因素回歸分析之前,厘清好各變量的因果關系。對!借助DAG的方法能夠形成相應的因果網絡。
但是,DAG建構并不是那麼容易,更多的時候,我們需要借助統計方法,來繪制DAG的連接配接線。
我推薦的方法是,“兩因素模組化法”和“去因素模組化法”來探索自變量為什麼先單後多結果不一緻。
兩種方法原理相似,他們的關系如同逐漸回歸法中的“向前逐漸”和“向後逐漸”方法。也非常容易了解。
3
“
兩因素模組化法
”案例分析
例1: Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素,結果變量為是否娩出低出生體重兒,考慮的自變量有産婦妊娠前體重、産婦年齡、種族、是否吸煙、早産次數、是否患高血壓等。(資料檔案見:logistic_step.sav。)

本文,關注兩個變量,吸煙與早産次數
首先是單因素回歸分析的結果:
在所有結果中,随訪次數,沒有統計學意義,是以多因素排除在外,剩下的全部納入多因素回歸分析(P<0.2)。結果如下:
結果發現,單因素分析中,種族是沒有統計學差異,多因素P<0.05! 早産次數,應激性單因素有統計學意義,多因素P>0.05! 此外,吸煙、高血壓的效應值(exp(B)即OR值)都在增大,這是為何?
我現在采用“兩因素”分析法,一探究竟!
1.為什麼種族單因素沒有統計學差異,而多因素有?
我建立多個回歸模型,每個回歸模型因變量是“低出生體重”,自變量是“種族”和一個其他自變量,是以稱為2因素回歸分析。
然後, 我發現,種族+吸煙的兩因素回歸模型結果詭異!
吸煙在場,種族的效應具有統計學意義了!
什麼原因?因為吸煙對種族而言,是一個中介變量!這個中介變量。這個示意圖的效果如下:
種族總的效應是2.3,通過吸煙的是-0.7,而不通過吸煙的是3.0,是以,當兩因素在的時候,通過吸煙的作用被阻攔,則效應值則變成了3.0,更為他突出了。
2. 為什麼高血壓的效應值大大增加了呢?
我同樣利用兩因素法建立多個回歸模型,每個回歸模型因變量是“低出生體重”,自變量是“種族”和一個其他自變量
結果發現,孕婦體重影響甚大:
單因素高血壓OR=3.365,兩因素變為5.998!
那麼産婦體重是什麼變量?在這裡顯然,不是中介變量了,而是混雜變量。
高血壓總的效應是3.65,而來自于産婦體重的影響則夾雜在其中,為-2.34(高血壓與産婦體重負相關),是以,單因素回歸分析的OR值比多因素回歸分析的結果要低。
4
去因素模組化法的應用
我針對早産次數“單因素有統計學意義,多因素P>0.05”的沖突進行分析吧
我先采用兩因素進行分析,探讨影響早産次數的幹擾因素。你們覺得誰影響了早産次數呢?答案是應激性和吸煙!
現在采用“去因素法”模組化。“去因素法”指的是,在全因子模型中,剔除被懷疑的因素,在本例,需要剔除應激性與吸煙!
可以看出,應激性和吸煙同時在場,則早産次數沒有統計學意義,而應激性和吸煙不在場,早産次數則有統計學意義了,和單因素分析結果一緻!
那麼應激性與吸煙是中介變量還是混雜呢? 先思考下!文末有答案。
4
小結
第一,兩因素法和去因素法是一種探索性的方法,可以幫助諸位粗略地發現結果異常嚴重的現象,特别是關鍵變量單因素、多因素的沖突。不妨結合兩種政策來試試!
第二,兩因素法和去因素法主要窺探中介與混雜的影響,但是究竟屬于中介還是混雜,需要根據理論知識來判定。
第三,老話,在一個模型中,中介變量與混雜都不是我關注的重點,但中介變量不應納入模型,混雜應該納入模型;也可以采用多層次多模型法來窺探兩個變量的影響
中介變量一直很重要,一直被忽視!如何在回歸分析中考慮中介變量?
第四,對于能考慮中介與混雜變量的場景,兩因素法和去因素法可能收效甚微!
第五,對于單因素和多因素回歸分析結果沖突時,千萬不要覺得沮喪。這反而是你們大展身手的時候!想辦法去解釋沖突之處,是一篇論文的亮點!
第六,從理論上分析,應激性與吸煙應該是中介變量!
--本文畢--
系列撰寫者:鄭衛軍,浙江中醫藥大學醫學統計學教研室主任。這裡不妨廣而告之,如果您有一個臨床試驗項目,正處于設計階段,并且已經或者将要過醫院倫理委員會稽核,不妨聯系鄭老師統計團隊,我們可以幫助您更好的改善臨床試驗。微信号ZZ566665。
支援鄭老師, 快來點選“分享”吧