天天看點

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

本文作者:莊時利和

如果你家裡有老人生病了,需要做某一項手術,你會如何選擇醫院?

假設你所在市内有 A、B 兩家醫院,這兩家醫院的手術都做得符合基本規範、術後存活者的生活品質相同、兩家醫院收費統一,甚至離你家的距離都一樣近。而且它們都非常開放,願意将所有治療資料向社會公布。

網上搜尋結果顯示,A 院近期有 1000 名患者接受這項手術,術後 900 人存活(總存活率 90%);B 院近期有 1000 名患者也做了同樣的手術,術後 800 人存活(總存活率 80%)。

你怎麼選?

從上面的資料來看,患者總存活率 90% 的 A 院似乎醫療安全性更佳,是就醫更加理性的選擇。

然而當你仔細檢視兩個醫院的資料,你可能會驚訝地發現,真實的資料和你想象的并不一樣——我可能會建議你選擇總存活率更低的 B 院。

資料的「詭計」:辛普森悖論

在大資料時代,大家越來越清楚資料的重要性,現在不少媒體或者自媒體的文章也經常洋洋灑灑列舉一堆資料。資料自然可貴,我們人生中很多決策往往就基于我們認為可靠的資料。

比如高中生想考大學,他們和父母會先了解某個大學在本省曆年來的招生人數;

比如應屆畢業生想找一份工作,他們往往會上網查查某個職位的平均薪酬;

比如年輕的情侶想在大城市買一套婚房,他們也許會花很多時間去了解本市某個版塊最近幾年的房價變化。

資料确實很重要,但資料有時候也會騙人。

「辛普森悖論」(Simpson’s Paradox)由英國統計學家 E.H.Simpson 于 1951 年提出,即在某個條件下的兩組資料,分别讨論時都會滿足某種性質,可是一旦合并考慮,卻可能導緻相反的結論。

簡單來說,在一組統計資料背後存在某些潛在變量(Lurking variable),這些潛在變量會徹底改變結論。

這句話可能還是不太好了解。讓我們再回到上面那個「選醫院」的問題,這個例子來自 TED的其中一期演講。

大家要記住一點,并不是每個醫院所接受的患者病情輕重程度都相同。是以,讓我們将患者按照病情輕重度進行分組後,再來看看兩家醫院的救治情況。

A 院收到的 1000 名患者中,有 100 名重症患者,做完手術後隻有 30 人存活,重症患者存活率為 30%;

B 院收到的 1000 患者中,有 400 名重症患者,做完手術後有 210 人存活,重症患者存活率為 52.5%。

是以對于重症患者來說,B 院是更好的選擇。

我們再看一下輕症患者。

A 院收到的 1000 患者中,有 900 名輕症患者,做完手術後有 870 人存活,輕症患者存活率為 96.7%;

B 院收到的 1000 患者中,有 600 名輕症患者,做完手術後有 590 人存活,輕症患者存活率為 98.3%。

是以對于輕症患者來說,B 院也是更好的選擇。

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

A、B 院患者按病情分組存活率比較

(作者制圖)

是以,雖然 A 院的患者總體存活率高于 B 院,但實際上,無論是輕症患者存活率還是重症患者存活率,A 院都不如 B 院。

為什麼會出現這種情況?

這是因為兩家醫院所收治的輕重症患者比例有巨大差異,在不進行任何治療的情況下,輕症患者的存活率顯然比重症患者高。而 A 院的患者總存活率恰恰就是被大量輕症患者稀釋了,進而給人造成了「A 院水準比 B 院更高」的假象。

在這個案例中,潛在變量就是不同醫院輕重症患者的比例——這就是一例典型的「辛普森悖論」,而這種悖論很可能會導緻人們做出錯誤決策。

A 院和 B 院是虛拟的例子,現實中其實也常有真實發生的案例,我在醫學院讀大學時就已經聽聞過類似的情況。

當時廣州有個醫院到處宣傳本院 SARS 期間零死亡,後來我們上課時,有教授就悠悠地說,這個醫院之是以能實作零死亡,主要是因為當時廣州最重的 SARS 患者都被廣醫一附院(呼研所)給收了。

咖啡有害論與被「坑」的NEJM

不僅我們普通老百姓可能被辛普森悖論欺騙,甚至連頂級期刊NEJM(新英格蘭醫學雜志)都曾經被帶進過坑裡,這個案例就是所謂的「咖啡有害論」。

上世紀八十年代,哈佛大學公衛學院院長 Brian MacMahon 研究發現「喝咖啡和胰腺癌存在密切關系」。研究人員對患有胰腺癌的住院患者和患有其他消化道疾病的住院患者進行比較後,發現胰腺癌患者中喝咖啡的比例明顯更高。

研究人員認為,如果人們停止喝咖啡,胰腺癌發病率可能會極大降低。這名院長 MacMahon 本人甚至親力親為,在開展這項研究之前他每天喝 3 杯咖啡,研究之後他直接戒掉了咖啡。

然而,這個研究很快被發現存在一個重大的缺陷。

在研究對象中,許多沒有患癌的住院病人會主動放棄喝咖啡,因為他們擔心咖啡會使潰瘍和其他腸胃問題惡化,但患胰腺癌的病人并沒有停止,這就使得胰腺癌患者中喝咖啡的比例更高。

是以,不是咖啡導緻了胰腺癌,而是其他疾病導緻了其他人不再喝咖啡。

在後來美國癌症協會的研究中發現,咖啡與胰腺癌、乳腺癌或其他癌症風險并沒有關聯,喝咖啡似乎還能降低胰腺癌風險——至少是對于男性而言。

2012 年,同樣是發表在NEJM上的一項研究發現,針對 13 年裡 40 萬人的跟蹤發現,在排除了吸煙、喝酒、鍛煉等混雜因素後,與不喝咖啡的人相比,每天喝一杯咖啡的人在各個年齡段去世的機率都會下降 5~6 個百分點——但需要強調的是,我們仍然不清楚兩者(咖啡和死亡率)之間是因果關系還是相關性。

我們再舉一個大家比較關心的例子——工資,這是美國曾真實發生的情況。

2000~2013 年,美國人的周薪中位數(下面簡稱工資)上升了 0.9%。這聽起來好像是個好消息,但真實情況是,各個學曆的人工資全都下降了。

高中以下的工資下降 7.9%

高中畢業生的工資下降 4.7%

大學肄業生的工資下降 7.6%

而大學畢業生的工資下降 1.2%

是以,大家的工資明明都下降了,為什麼總的工資會上升?如果不了解具體情況,估計有人會大罵統計局造假。

實際上,這裡的「辛普森悖論」,是由兩個因素決定的。

第一,随着學曆上升,工資水準也會提高。這個大家應該很容易了解,知識改變命運嘛,不然讀書作甚?

第二,美國大學畢業生比以前多得多,而高中及以下學曆的比例在下降。

是以,由于高學曆人群在就業人口中的比重上升,帶動整體的工資中位數上升,雖然這部分人群連同其他人群的實際收入是下降的。在這個案例當中,那個狡猾的「潛在變量」就是不同學曆人群的比例。

此外,真實世界中還有很多辛普森悖論的真實案例。在 Gary Smith 所著的《簡單統計學》第 7 章中,就專門舉了一些辛普森悖論的例子,例如:

阿拉斯加航空公司在 5 個不同機場都擁有優于另一家航空公司的準點運作記錄,但其總體準點記錄卻不如競争對手,為什麼?

——因為阿拉斯加航空有很多飛往西雅圖的航班,而西雅圖的天氣問題經常導緻飛機延誤。

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

上世紀八十年代的一項醫學研究發現,開放式的取石手術(上圖 Treatment A)對于小型和大型腎結石的治療成功率,均高于微創的經皮腎鏡取石術(上圖 Treatment B),但其總體成功率卻不如後者,為什麼?

——因為開放式的取石手術經常被用于治療大型腎結石,而大型腎結石的治療成功率本身就相對較低。

舉了這麼多例子,大家應該可以了解基本辛普森悖論是怎麼來的了,也知道資料分組中的潛在變量,可能導緻最終出現截然相反的結論。

新冠病死率裡也有「玄機」

最後,讓我們帶着前面的思考,來考慮一下新冠大流行背景下一個關注度頗高的問題——新冠肺炎病死率。

2020 年 5 月 16 日,預印本論文平台arXiv上發表了一篇論文Simpson`s Paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects.,發現在中意兩國的新冠肺炎死亡率上,同樣觀察到辛普森悖論。

研究人員統計了中國和意大利兩國的新冠肺炎病死率,中國的資料是截至 2 月 17 日的 72314 例病例,意大利的資料是截至 3 月 9 日的 8342 例病例。

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

結果發現,雖然中國每個年齡段的病死率都比意大利高,但是中國總體的病死率卻比意大利低。

如果隻看這個結論的話,估計又有人要罵資料造假了。但是你已經看過了上面的醫院和工資案例,你可能會猜到背後的原因——中意兩國患病年齡不同。

實際上,無論在哪個國家,我們都發現新冠肺炎病死率随着年齡增長而大幅升高,新冠肺炎對于老年人的威脅遠大于年輕人。

意大利人口的平均年齡是 45.4 歲,中國則是 38.4 歲。意大利實際上是一個老齡化非常嚴重的國家,老齡化程度位居全球第二,僅次于日本。中國新冠肺炎患者年齡段主要集中在 30~59 歲這個區間,而意大利的患者則多在 60 歲以上。

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

這也就解釋了為什麼按照年齡組劃分的死亡率與總體死亡率之間的沖突,進而導緻資料上出現辛普森悖論。

當然,在這項研究當中,科研人員還讨論了别的因素,雖然年齡是最主要的潛在變量,實際上各國的防控政策、性别、經濟狀況和飲食習慣等變量都會影響最終的資料。

為什麼“患者總存活率”更低的醫院,反而可能更值得推薦?

另外,由于彼時(3 月 9 日)還是意大利疫情的初期,而新冠肺炎的病程需要一至數周時間,3 月初的資料并不能完全反映真實情況。在後來的資料(截至 5月 7 日)中,由于醫療系統被擊穿等原因,意大利的死亡率大幅上升,50 歲以上幾個年齡段的死亡率都超過了中國。

願你能更準确地看清這個世界

就像上面說的,辛普森悖論可能導緻人們做出錯誤的決策,因為很多人常常隻看整體資料而不看分組資料(或者相反),很少會仔細地同時分析整體和分組資料。

這可能是因為專業性不夠,也可能是因為沒有那麼多時間精力,還可能是因為,我們往往隻願意相信我們認為是對的,然後想方設法選擇證據證明自己的觀點。

以上就是關于辛普森悖論的内容了。大家在明白這個悖論後,以後就會少陷入那些有意或者無意的統計學陷阱。

願你能更準确地看清這個世界。

策劃:栗子、carollero

監制:gyouza

題圖來源:視覺中國

繼續閱讀