SPSS操作:輕松實作1:1傾向性評分比對(PSM)
談起臨床研究,如何設立一個靠譜的對照,有時候成為整個研究成敗的關鍵。對照設立的一個非常重要的原則就是可比性,簡單說就是對照組除了研究因素外,其他的因素應該盡可能和試驗組保持一緻,這裡就不得不提随機對照試驗。衆所周知,随機對照試驗中研究對象是否接受幹預是随機的,這就保證了組間其他混雜因素均衡可比。
但是有些時候并不能實作随機化,比如說觀察性研究。這時候傾向性評分比對(propensity score matching,
PSM)可以有效降低混雜偏倚,并且在整個研究設計階段,得到類似随機對照研究的效果,想看執行個體趕快戳:隊列研究常用的傾向評分,到底是個啥?。與正常比對相比,傾向性評分比對能考慮更多比對因素,提高研究效率。
這麼“高大上”的傾向性評分比對,是不是超級難學?錯矣!今天就帶大家輕松搞定1:1傾向性評分比對。作為“稀罕”大招,并不是在所有版本的SPSS都可以實作傾向性評分比對,僅在SPSS22及以上自帶簡易版PSM,對于其他版本或者想要體驗完整版功能,就不得不去安裝相應的軟體(R軟體、SPSS
R插件、PS matching插件。。。超級難安裝!那是需要運氣和耐心的!感興趣的小夥伴可以私聊~~~)。
本次使用SPSS22為大家示範1:1傾向性評分比對。
一、問題與資料
某研究小白想搞明白吸煙和高血壓之間的關系,準備利用某項調查的資料進一步随訪研究吸煙和高血壓的關聯,該項研究包括233名吸煙者,949
名不吸煙者。如果全部随訪,研究小白感覺鴨梨山大,是以打算從中選取部分可比的個體進行随訪。
這兩組人群一些主要特征的分布存在顯著差異(見表1),現準備采用PS最鄰近比對法選取可比的個體作為随訪對象。
表1. 兩組基線情況比較(比對前)

二、SPSS分析方法
1. 資料錄入
(1) 變量視圖

(2) 資料視圖

2. 傾向性評分比對
選擇Data→Propensity Score
Matching,就進入傾向性評分比對的主對話框。

将分組變量Smoke放入Group
Indicator中(一般處理組指派為“1”,對照組指派為“0”);将需要比對的變量放入Predictors中;Name for
Propensity Variable為傾向性評分設定一個變量名PS;
Match
Tolerance用來設定傾向性評分比對标準(學名“卡鉗值”),這裡設定為0.02,即吸煙組和不吸煙組按照傾向性評分±0.02進行1:1比對(當然,卡鉗值設定的越小,吸煙組和不吸煙組比對後可比性越好,但是凡事有個度,太小的卡鉗值也意味着比對難度會加大,成功比對的對子數會減少,需要綜合考慮~~~);
Case ID确定觀測對象的ID;Match ID Variable
Name設定一個變量,用來明确對照組中比對成功的Match_ID;Output Dataset
Name這裡把比對的觀測對象單獨輸出一個資料集Match。
3. Options設定

Variable for Number of Eligible
Cases設定一個變量,用來明确病例組中某一個觀測對象,在對照組中有多少個觀測對象滿足與其比對的條件,比如說病例組有一個觀測對象PS=0.611,對照組可能有一個0.610,一個0.612。
Sampling預設為不放回抽樣。
Give priority to exact matches
優先考慮精确比對,也就說病例組有一個觀測對象PS=0.611,對照組也應該找到一個0.611。
Maximize execution performance
執行最優化操作,即系統會綜合考慮精确比對和模糊比對(基于設定的卡鉗值範圍内比對),系統預設勾選。
Randomize case order when drawing
matches整個比對過程中,如果對照組有多個滿足比對條件的觀測對象,那麼SPSS會預設随機将其與病例組觀測對象比對。但是因為SPSS預設每次操作給對照組的随機數字不同,是以如果不特殊設定,每次實際比對成功的對子是不一樣的,也就說這一次對照組A比對給病例組B,下一次就可能比對給病例組C。是以需要自行設定,并且在Random
Number Seed設定一個随機數種子,確定比對過程可以重複。
三、結果解讀
1. 比對結果
表2以吸煙(1=吸煙;0=不吸煙)為因變量,以需要調整的變量為自變量建構logistic回歸模型(表2),求出每個研究對象的PS值。
表2. logistic回歸模型

表3顯示,精确比對45對,模糊比對114對,共計比對成功159對。
表3. 比對結果

表4主要是比對過程。首先是精确比對(即PS完全一緻),比對33663次,大約1%比對成功;其次在精确比對成功的前提下,進行PS的模糊比對(PS±0.02,即最開始設定的卡鉗值為0.02),比對33618次,大約3.3%比對成功。
表4. 比對容許誤差

2. 比對後資料庫
輸出的資料集Match中出現之前設定的幾個新變量:E_case表示對照組中有幾個符合比對條件的觀測對象(如圖,吸煙組ID=2,有2個對照組觀測對象符合比對條件);PS是基于logistic回歸模型計算出的傾向性評分;match_id表示比對成功的ID。

3. 資料庫整理
A.
篩選比對成功的對子:選擇Data→Select Cases→If condition is
satisfied:設定match_id≥1,篩選出比對成功的對子→Output中輸出新的資料集Analysis。

B.
确定比對成功辨別:match_id為吸煙組和不吸煙組互相比對成功的ID,這裡将不吸煙組match_id變量轉換為ID變量,這時候相同的match_id即為比對成功的對子。具體操作:将Analysis資料集中,不吸煙組match_id替換成ID編号:Transform→Compute
Variable→if smoke=0, match_id=ID→OK

C. 選擇Data→Sort
cases→按照比對辨別match_id排序(相同的match_id即為比對成功的對子)→OK→Save(你的滑鼠手一定要點儲存!!!)

傾向性評分比對就搞定了,再來看看比對情況。表5顯示,原吸煙組233例,最後共有159例比對成功(這次我們限定PS≤0.02,但可根據實際情況選擇合适的限定,增加比對成功數!),各比對因素在兩組間都均衡可比。
表5. 兩組基線情況比較(比對後)

四、總結和拓展
PSM一般分為三種類型:
1、PS最鄰近比對:是PSM最基本的方法,即直接從對照中尋找一個或多個與處理組個體PS值相同或相近的個體作為配比對象。本次我們就采用的是這個方法。
2、分層PSM:PS最鄰近比對盡管可以使協變量總體趨于平衡,但不能保證每個協變量分布完全一緻。可以根據某個重要變量(如性别)分層後,分别對每層人群進行PS最鄰近比對,然後再将配比人群合并,這樣就可以保證該重要變量在組間分布完全一緻。
3、與馬氏配比結合的PSM:PSM與馬氏配比結合後可以增加個别重點變量平衡能力,實作過程比較複雜。
對于1:m
PS比對和與馬氏配比結合的PSM,目前SPSS22及以上版本自帶的PSM并不能實作,後面會介紹基于SAS軟體複雜傾向性評分比對,敬請期待~~~