天天看點

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

作者:常醫生中醫内科針灸

引言

随着大資料的快速發展和研究學者們對醫療界的愈發關注,如何利用人工智能幫助住院病人提前預警,進而提高生存率并降低醫院負擔變得愈發受人關注。

膿毒症(Sepsis)是一種由細菌等緻病微生物入侵人體引起的全身發炎反應綜合征,具有極高的發病率和死亡率。過去10年内,膿毒症在ICU住院病人中占比超過20%,且每年以超過8%的死亡率急劇增加,膿毒症的相關研究也是以在醫療領域頗受關注。如何及時對膿毒症進行預測變得更為迫在眉睫。

一、資料來源及說明

本文使用MIMIC-IIIv1.4資料集,一個免費公開的大型醫療資料庫,幾乎涵蓋病人住院期間所需的所有治療或診斷記錄。整合了位于馬薩諸塞州波士頓的BethIsraelDeaconess醫療中心收治的2001年至2012年之間4萬多名不明身份患者的全面的臨床資料,并根據資料使用協定使國際研究人員可以廣泛通路這些資料(每小時約1個資料點)。該資料庫包含26張表,以下将對資料集做詳細介紹。

1、字典資訊輔助表

字典資訊資料,共包含5個資料表。當查取患者的特定代碼所對應的病症或是名額時,即需要在字典表。字典表讓表的結構更為簡單清晰了。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

字典表簡介

2、患者人口學資訊及院内周轉資訊

患者個人資訊及主要住院資訊,共包含6個資料表。在做實驗時用到的更多為這6張表。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

患者資訊表簡介

·PATIENTS:記錄患者的個人資訊。可以與ADMISSONS表聯合起來使用,用于簡略分析入院患者的特點,此外,ADMISSONS表還可以對PATIENTS做一個病人個人資訊的補充。

·ADMISSIONS:主要記錄患者的住院情況。當研究在特定時間視窗内入院的患者時,入院時間就顯得尤其重要。在研究患者住院結局,如膿毒症死亡率時,死亡時間亦會用到。

·ICUSTAYS:通常被用來計算患者在ICU内待的時長。

3、病人醫院門診治療的相關資訊表

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

醫療記錄相關表簡介

·CPTEVENTS:記錄了患者使用到了哪些需要付費的醫療服務,由此友善計算費用。

·DIAGNOSES_ICD:記錄了患者的ICD-9診斷編碼,研究特定疾病時會使用到該表。一個患者可能會患有多個ICD-9編碼對應的病症,一般認為第一個是患者的主病。

·LABEVENTS:患者的化驗結果記錄表,比如血壓、尿量等。包含有關基于實驗室的測量的資訊,需要注意的是測量時間是液體采集時間,而不是臨床從業人員可以使用這些值的時間。

·PRESCRIPTIONS:包含與藥物相關的訂單條目,在研究患者的藥物使用時,該表有大用途。

4、病人在ICU裡的治療相關資訊表

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

病人治療資訊記錄表

·CHARTEVENTS:包含患者的所有圖示記錄資訊,顯示患者的正常生命體征和與其護理相關的其他任何資訊,如:呼吸機設定、實驗室測量值、精神狀态等。

·DATETIMEEVENTS:包含有關ICU中患者的所有日期測量值。需要注意的是,為了保護病人隐私,所有的日期都做了隐私處理,但日期之間的內插補點還依舊有意義。

·NOTEEVENTS:需要文本記錄的事件。一般指醫囑。

二、架構概述

本文主要是針對膿毒症預測中出現的器官衰竭的影響和病人身體名額的變化提出的模型。将病人的曆史診斷資料分多個通道輸入模型,并在各通道的模型中完成對各自名額變化的權重計算以及器官衰竭的資訊學習,最後預測該病人在未來2/6小時後是否會患膿毒症,模型架構如下圖所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

模型架構

多器官狀态融合模型。由于膿毒症的發病表現在器官衰竭上,那麼器官衰竭的程度就必然在一定程度上反映了患膿毒症的風險。在這裡本文隻考慮了常見的4種器官衰竭:呼吸系統、凝血系統、肝系統以及腎系統衰竭。

以GRU為基準模型,将不同的器官衰竭資料分通道輸入到模型中,形成了multichannelgru的形式,有助于模型更針對性的對器官衰竭進行學習,這樣在充分的學習了器官衰竭的資訊後有助于對最終膿毒症的預測。

差分時序權重學習。由于特征的動态變化同樣反映了病人的身體狀況。是以在各個通道的模型中設計了差分時序權重學習子產品,使用注意力機制根據特征的變化賦予相應的權重,即在學習每個器官衰竭的同時也學習了病人的身體名額的變化情況。

膿毒症預測。在膿毒症預測時,主要是将各通道的輸出進行整合,然後再預測。多通道輸出的整合方式有多種,模型中使用的是較為簡單的将各個通道的隐藏層進行拼接的形式。這種方式簡單快捷,操作性強。

三、實驗

1、實驗環境配置

本文所需要的實驗配置需求幾乎都為軟體需求。實驗軟體:PyCharm安裝包:Python3.8,Pytorch-gpu1.7

2、實驗資料預處理

本文使用的資料集為公開資料集MIMIC-IIIv1.4。在正式實驗前,會先對資料進行預處理以滿足模型的輸入需求和邏輯需求。資料預處理的大緻流程如下圖所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

資料預處理流程

(1)打标

原始的MIMIC-III資料集是沒有膿毒症标簽的,是以需要根據sepsis3.0标準給資料集打标。要判定某患者患膿毒症,需滿足兩個條件:該患者已發生感染,同時該患者患有器官衰竭(器官衰竭分數大于等于2)。

選擇培養物和使用抗生素中較早的時間點作為感染的時間點。

以口服或注射抗生素及體液培養物(血液,尿液,腦脊液,腹膜等)的采樣為準。如果取得了培養物,則需要在72小時内施用抗生素,而如果先使用抗生素,則需要在24小時内施用培養物。可參照下圖。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

發生感染時間判斷

SOFA≥2出現多器官衰竭。下表展示了器官衰竭的判定标準。事實上,下表展示的就是根據器官損害程度對患者進行預後判斷的一個評分系統(SOFA評分),最終的SOFA評分是所有6個器官的評分之和。根據下表給各器官衰竭打分,若出現了多器官衰竭(SOFA≥2),再結合是否感染的判斷,即可給該病人打标簽。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

序貫器官衰竭評分(SOFA)

多器官衰竭時間和感染時間靠後者為膿毒症發生時間。在确定了病人患了膿毒症後,需要具體明确該病人發生膿毒症的時刻。由于已經确定了感染所出現的時刻,而出現多器官衰竭也可以是在某一段時間内。是以,将時間視窗規定為發生感染前24小時和後12小時内,如下圖所示,比較感染時間和出現多器官衰竭時間,兩者中靠後的一個時間點記作該病人發生膿毒症的時間。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

發生膿毒症時刻判斷

根據條件得到膿毒症的發生及具體時間。需要注意的是,由于最終目的是需要預測未來2或6小時病人是否患病,是以,需要将得到的标簽相應的往前移2或6小時。

具體方法為:在确定了膿毒症發生時間後,膿毒症發生前2小時或6小時以内的資料标記為正樣本(label為1),膿毒症一直未發生或發生前超過2小時或6小時的資料标記為負樣本(label為0)。

(2)資料聚合

為了得到一些名額的統計資訊,例如在2小時内或6小時内該名額的平均值、最大值以及最小值。本文将打标後的資料按照2小時或6小時進行了聚合,聚合後将原始的某一個名額替換為了該名額測量次數、該名額在該段時間内的最大值、該名額在該段時間内的最小值、該名額在這段時間内的均值、該名額在這段時間内的方差。

(3)正常處理

這裡包括資料下采樣、缺失值填補、離散資料處理以及資料歸一化。按照2小時和6小時聚合後原始的資料集正負樣本比例分别為1:24和1:32,都是極度的樣本不平衡。采取正負樣本1:2的比例對經過以上三步處理後的資料集下采樣。

以2小時聚合為例,MIMIC-IIIv1.4資料集的資料缺失情況如下圖所示。缺失率最高的前20個特征,最少的缺失率也超過了70%。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

資料缺失率

本文采用的缺失值填補方式有兩種,一是利用knn插值法,二是利用均值填補。實驗效果表明knn插值法不如均值填補,是以本文最終采納了均值填補方式。

資料集中唯一的一個離散變量隻有性别列,對該列進行啞變量處理。最後利用scaler對資料集歸一化。

經過上述四部分的資料預處理,本文最終使用到的資料集大緻統計資訊如下表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

資料集統計資訊

3、實驗結果

以兩小時聚合的資料集為例,整體的模型實驗結果如下表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

完整實驗結果

實驗中所涉及到的參數僅包含學習率lr和訓練輪數epoch,均在上表中顯示出。

以下将從三個方面對該實驗結果進行分析。

(1)基準模型實驗結果分析

利用MIMIC-III資料集預測膿毒症是目前關注度比較高的研究方向,大多研究采用的都是機器學習模型,本文設定的基準模型隻涵蓋了以下兩種方法,一方面是因為這兩種方法在進行膿毒症預測時利用的比較多,另一方面是因為這兩種算法在大多機器學習算法中,算是表現比較穩定且優異的算法。

·XGBoost(JeromeFriedman,2000)

·LightGBM(GuolinKe,2017)

·GRU(JunyoungChung,2014)

将以上的兩個機器學習算法作為與GRU進行對比的基準模型,是為了證明在本文研究的問題中,循環神經網絡模型(GRU)提出的必要性。

其實驗結果如下表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警
基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

gru與基準模型實驗結果

從上表可以看出,傳統機器學習的效果比較穩定,auc(ROC曲線下方的面積大小)值穩定在0.75左右。而與傳統機器學習相比,神經網絡由于考慮了時間序列的互相關系,對資料的學習能夠更加充分,能夠實作更好的模型效果,auc和f1值均有提升,尤其f1值提升了約20個百分點。證明了本文使用gru作為基準模型的正确性。

另外,為了驗證本文所提出的基于注意力機制的差分時序的有效性,這裡也提出了一個變形模型作為補充的基準模型。

delta_gru:是為了與attention_gru(含有注意力機制的差分時序模型)形成對比,證明引入注意力機制實作差分時序子產品的必要性。delta表示将特征變化幅度作為新的特征拼接到原有資料集中。

最終的實驗結果如下面兩表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

不同實作方式的差分時序實驗結果

上表展示的是在gru的基礎上利用delta或注意力機制分别實作差分時序的方式來融入病人的身體名額的變化幅度資訊。實驗資料表明,利用引入注意力機制的差分時序,比單純擴充原有資料集特征更有效果。

由于注意力機制的權重計算,對原始特征的動态變化幅度有了一個相應的重要性選擇,是以,證明本文利用注意力機制實作差分時序的設計是有效的。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

在多器官狀态融合下差分時序實驗結果

上表展示的是在多器官狀态融合模型的基礎上利用delta或注意力機制的差分時序的實驗結果對比。實驗結果表明,與單獨使用gru類似,利用引入注意力機制的差分時序模型學習病人身體各項名額變化比直接擴充特征更有效。

(2)消融實驗結果

前面的基準模型是為了證明模型或子產品的必要,而消融實驗是為了證明模型中各子產品的有效性。在這裡,本文主要分析多器官狀态融合和差分時序子產品(由注意力機制實作)兩部分各自的有效性。實驗結果如下面兩表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

多器官狀态融合消融實驗結果

上表展示了本文第一個子產品多器官狀态融合的重要性。在原始的gru模型中,加入多器官狀态融合的設計後,模型的效果提升了16個百分點,其他的評估名額也都有至少6個百分點的提升。

如此大的提升對模型本身來說是非常難得和驚喜的,說明本文多器官狀态融合的設計讓模型更全面且充分的學習了資料,進而大幅度提高了模型效果。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

差分時序下多器官狀态融合消融實驗結果

上表是為了證明不管原模型如何變化,多器官狀态融合子產品的提出均是有效的。從上表可以看出,在差分時序的基礎上,再加入多器官狀态融合設計,模型的效果明顯提升。

其中,auc值提升了14個百分點,f1值也提升了7個百分點,其他名額也都提升了至少6個百分點。多器官狀态融合子產品由于它對資料的特殊處理幫助模型更有效地預測。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

差分時序消融實驗結果

上表展示了在gru模型中,差分時序子產品的重要性。差分時序的設計幫助模型對病人本身身體名額的不正常大幅度變化分予更多的注意,給予提前預警,進而幫助模型有效預測,并使得模型的auc值在原有基礎上提升了7個百分點,充分證明了差分時序在實驗中應用的正确性。

以上所有的消融實驗表明了本文設計的差分時序和多器官狀态融合的子產品有效性和高效性,充分說明了本文所提出的模型的可靠性。

(3)模型魯棒性結果

模型魯棒性可以了解為模型的穩定性。本文通過更換資料集,來确認本文提出的模型的效果是否依然高效且有效。

所有實驗結果都是基于2小時聚合下MIMIC-IIIv1.4資料集得到的,如下表所示,通過前文的分析以及表中的結果可以明顯看出,本文所提出的模型的有效性。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

2小時聚合資料集實驗結果

将模型的資料集更換為給予6小時聚合的MIMIC-IIIv1.4資料集,再進行實驗,實驗結果如下表所示。

基于差分時序多器官狀态融合的膿毒症,如何利用人工智能提前預警

6小時聚合資料集實驗結果

從上面量表可以看到,不論是基于2小時聚合,還是基于6小時聚合,本文所提出的模型都是有效的。

總結

随着研究學者們對醫療領域的關注越來越多,如何有效且及時的預測病人的身體狀況,是目前領域最基本也最迫切的問題。本文研究的問題是醫療領域的膿毒症預測,對其進行提前2小時或提前6小時的預測,便于臨床上的及時治療。

限于現有研究中對膿毒症的預測效果有限,auc值多集中在0.8-0.9之間,有的甚至低于0.8,而高于0.9的可謂是非常少。此外,利用MIMIC-IIIv1.4資料集進行預測的研究在模型設計上多為繁瑣,多引入高斯分布、貝葉斯機制等複雜難懂的知識。

是以為了更簡單且有效的預測膿毒症,本文提出了基于差分時序多器官狀态融合的膿毒症預測方法,由于當今膿毒症的患病率和死亡率依舊居高不下,以及人工智能在臨床治療上的愈發廣泛,本文提出的模型在對膿毒症的及時預測上有很大的應用前景。

免責聲明:文章内容如涉及作品内容、版權圖檔或其它問題,請在30日内與本号作者聯系,如反映情況屬實我們将第一時間删除責任文章。文章隻提供參考并不構成任何投資及應用建議。

繼續閱讀