天天看點

分享丨Nature:為高次元醫學成像設計可臨床轉化的人工智能系統

轉自AI科技評論

編譯 | 王晔

編輯 | 青暮

分享丨Nature:為高次元醫學成像設計可臨床轉化的人工智能系統

本文來自于《Nature Machine Intelligence》。作者Rohan Shad是Hiesinger實驗室心胸外科系博士後研究員。他和團隊為心血管成像(超聲心動圖和心髒MRI)建構新型計算機視覺系統,并且使用轉錄組學和蛋白質設計研究心髒病的潛在機制,為嚴重心力衰竭患者設計裝置。

文中探讨了高維臨床影像資料所面臨的特有挑戰,并強調了開發機器學習系統所涉及的一些技術和倫理方面的考慮,更好地展現了影像模式的高維性質。此外,他們認為嘗試解決可解釋性、不确定性和偏見的方法應被視為所有臨床機器學習系統的核心組成部分。

原文連結:https://www.nature.com/articles/s42256-021-00399-8

2018年,美國國家衛生研究院确定将人工智能納入醫學成像未來發展的重點領域,并且為圖像采集、算法、資料标準化和可轉化的臨床決策支援系統的研究制定了基礎路線。

報告中提到,盡管資料的可用性、對新型計算架構的需求和可解釋的人工智能算法等在過去幾年已經取得了巨大的進展,但目前仍然是一個關鍵性問題。

此外,在早期的開發過程中,還必須考慮到資料共享的轉化目标、為監管部門準許而進行的性能驗證、可推廣性以及減輕無意的偏見等問題。

1.主旨

算力的提高、深度學習架構和專家标記資料集的進步刺激了醫學影像人工智能(AI)系統的發展。

然而,應用人工智能系統來協助完成臨床任務是非常具有挑戰性的。機器學習算法的目的是減少臨床推斷所需的時間。但在臨床中進行應用,有可能無意中會延誤患者的治療。當離開可控制的實驗室環境時,人工智能系統的終端使用者必須能夠控制輸入品質,并且能夠解決網絡延遲等問題,設計出将這些系統整合到既定臨床實踐中的方法。

早期對可轉換的臨床機器學習的嘗試表明,設計的系統要在既定的臨床工作流程中正常工作,就必須要在算法開發之初就做出大量的整合努力。因為在未來部署該系統時,疊代的機會非常有限。

随着開源機器學習軟體庫的日益增多和計算機性能的不斷進步,研究人員越來越容易開發出複雜的針對特定臨床問題的人工智能系統。除了檢測疾病診斷的特征外,下一代人工智能系統必須考慮訓練資料的系統偏見,更為直覺地提醒終端使用者預測中固有的不确定性,并允許使用者能夠探索和解釋預測的機制。

該觀點以這些關鍵的優先領域為基礎,以加速醫學領域的基礎人工智能研究。我們概述了資料集的細微差别和高維醫學成像機器學習的具體架構注意事項,同時讨論了這些系統的可解釋性、不确定性和偏差。在此過程中,我們為有興趣解決建構臨床可翻譯 AI 系統,所帶來的一些問題和挑戰的研究人員提供了一個模闆。

2.高維醫學影像資料

我們預計,在可預見的未來,可用的高品質 "AI-ready "注釋的醫學資料集将仍然不能滿足需求。回過頭來配置設定臨床事實标簽需要臨床專家投入大量的時間,而且将多機構的資料彙總起來公開釋出也存在很大的障礙。除了需要以在硬放射學真實标簽上訓練的模型為特征的“診斷人工智能”之外,還需要根據潛在的更複雜的臨床綜合結果目标訓練的 "疾病預測人工智能 "。具有标準化的圖像采集協定和臨床基本事實裁決的前瞻性資料收集,是建構具有配對臨床結果的大規模多中心成像資料集的必要步驟。

大規模的多中心成像資料集會産生許多隐私和責任問題,這些問題與檔案中嵌入的潛在敏感資料有關。醫學數字成像和通信(DICOM)标準普遍被用來捕獲、存儲和提供醫學圖像的工作流程管理。成像檔案(以.dcm檔案或嵌套檔案夾結構的形式存儲)包含像素資料和相關中繼資料。衆多的開源和專有工具可以幫助對DICOM檔案進行去識别化。後端醫院資訊學架構,如Google Healthcare API,是一種清除可能包含敏感資訊的中繼資料域的方法,也通過 "安全清單 "支援DICOM去辨別化。

在面向使用者方面,MIRC臨床試驗處理器匿名器是一種流行的替代方法,盡管它需要使用某些遺留軟體。有據可查的Python軟體包(如pydicom)也可用于在使用或轉給合作機構之前處理DICOM檔案。然後可以提取成像資料并以各種機器可讀格式存儲。這些資料集可以迅速變得龐大且笨拙,雖然資料存儲格式的細節超出了本觀點的讨論範圍,但醫學成像AI的一個關鍵考慮因素是圖像分辨率的保留。

自動去識别方法或腳本經常被提及的一個缺點是受保護的健康資訊有可能被 "刻錄 "在影像檔案中。盡管有DICOM标準,但制造商的不同,使得難以通過MIRC臨床試驗處理器等工具來生成簡單的規則,以屏蔽可能位于受保護健康資訊的區域。我們建議使用一個簡單的機器學習系統來屏蔽 "燒錄 "的受保護健康資訊。

以超聲心動圖為例,有一個預定義的掃描區域,在那裡可以看到心髒。其他潛在的選擇是基于機器學習的光學字元識别工具,以識别和屏蔽有印刷文本的區域。DICOM标簽本身可用于提取掃描級資訊和特定模式的标簽。例如,在超聲心動圖和心髒磁共振成像 (MRI) 的情況下,可以輕松地從DICOM中繼資料中提取重要的掃描級别資訊,例如采集幀速率和日期或MRI序列 (T1/T2)。

分享丨Nature:為高次元醫學成像設計可臨床轉化的人工智能系統

圖1:基于雲的協作式注釋工作流程。基于雲的工具可用于生成專家注釋資料集,并通過安全連接配接與臨床專家進行評估。圖為MD.ai的一個實施方案,其中臨床專家進行各種2D檢測以測評心髒功能。

對于涉及人工智能系統與臨床醫生進行正面基準測試的研究工作,或在臨床注釋者的幫助下策劃大型資料集,我們建議以DICOM格式存儲掃描的副本。這樣就可以通過可擴充和易于使用的雲端注釋工具進行部署。目前有幾種解決方案用于配置設定掃描資料供臨床專家評估。要求的範圍可能從簡單的掃描級标簽到詳細的特定領域的解剖學分割掩碼。在我們的機構,我們部署了MD.ai (New York, New York),這是一個基于雲的注釋系統,可原生處理存儲在機構準許的雲存儲提供商(谷歌雲存儲或亞馬遜 AWS)上的DICOM檔案。替代品提供類似的功能,如ePadLite(Stanford, California),它可以免費使用。基于雲的注釋方法的另一個優勢是,掃描可以保持原始的分辨率和品質,實時協作模拟 "基于團隊 "的臨床決策,注釋和标簽可以很容易地導出用于下遊分析。最重要的是,其中許多工具都可以用任何網絡浏覽器遠端通路,并且極易操作,極大地提高了使用者體驗并減輕了臨床合作者的技術負擔。

最後,較新的機器學習訓練範式,如聯邦學習,可能有助于規避許多與資料共享相關的障礙。Kaissis等人審查了聯邦學習的原則、安全風險和實施挑戰。這種方法的主要特點是在每個機構都訓練本地算法副本,唯一共享的資訊是神經網絡在訓練過程中學習到的特征。在預定的時間間隔内,從每個機構的算法中學到的資訊(訓練的權重)被集中起來并重新配置設定,高效地從一個大型的多中心資料集中學習,而不需要傳輸或分享任何醫學成像資料。這有助于快速訓練算法,從胸部計算機斷層掃描中檢測COVID-19的特征。

盡管在醫學成像領域已經有了聯合學習的成功示範,但在将這些方法用于正常臨床使用時,仍然存在大量技術挑戰。特别是在高維成像機器學習系統的背景下,從多個參與中心傳輸和更新訓練的權重而引入的網絡延遲,成為訓練更大神經網絡的基本速率限制步驟。研究人員還必須確定訓練後的權重在參與機構之間的傳輸是安全和加密的,這進一步增加了網絡延遲。此外,在設計研究時,如果不能通路源資料,策劃資料集的品質和一緻性可能極具挑戰性。許多概念上類似的聯合學習架構仍然假定對源資料有一定程度的通路。

3.計算架構

現代臨床機器學習中使用的神經網絡架構,主要來自于那些針對大型照片或視訊識别任務28進行優化的架構。即使在細粒度分類的其他挑戰性任務中,這些架構也非常穩健,其中類具有微妙的類内差異(狗的品種),而不是具有高類間差異的明顯不同對象(飛機與狗)。通過對大型資料集(例如ImageNet)進行充分的預訓練,這些 "現成 "架構的性能優于為其量身定做的細粒度分類器。其中許多架構可用于流行的機器學習架構,如TensorFlow和Pytorch。最重要的是,這些架構通常為各種不同的神經網絡架構提供ImageNet預訓練權重,使研究人員能夠迅速将它們重新用于專門的醫學成像任務。

不幸的是,絕大多數的臨床成像方式都不是簡單的靜态 "圖像"。例如,超聲心動圖是一種心髒的二維(2D)超聲影像。這些 "視訊 "可以從多個不同的視角拍攝,進而可以對心髒進行更全面的評估。CT和MRI掃描可以被認為是一堆二維圖像,必須按圖像順序進行分析,否則醫生有可能錯過器官之間沿某一軸線的有價值的關系。

是以,這些 "成像 "模式更類似于視訊。将其作為圖像拆開分析,可能會導緻空間或時間背景的丢失。例如,将視訊每一幀作為獨立的圖像進行分析處理,會導緻每一幀視訊之間時間資訊的丢失。在利用超聲心動圖、CT和MRI掃描的各種任務中,基于視訊的神經網絡算法比其 2D算法有相當大的改進,但內建多個不同的視圖平面帶來了額外的次元,很難将其納入目前架構。

與廣泛的基于圖像的預訓練網絡庫不同,對視訊算法的支援仍然有限。對部署新架構感興趣的研究人員可能需要自己在大型公開的視訊資料集(如Kinetics和UCF101(中佛羅裡達大學101--動作識别資料集))上執行預訓練步驟。此外,視訊網絡的訓練計算成本可能要高幾個數量級。雖然使用大型自然景物資料集進行預訓練是開發臨床成像機器學習系統的一個公認的政策,但不能保證性能的提升。關于預訓練的性能改進的報告很常見,特别是在使用較小的資料集時,但随着訓練資料集的增加,其優勢會逐漸減少。

在2018年美國國家衛生研究院的路線圖中,缺乏特定于醫學成像的架構被認為是一項關鍵挑戰。我們進一步延伸,提出訓練這些架構的方法,對這些系統将轉化為現實方面發揮着重要作用。我們認為,下一代的高維醫學成像AI 将需要對更豐富、更有背景意義的目标進行訓練,而不是簡單的分類标簽。

如今,大多數醫學成像AI系統專注于從正常背景下診斷少數疾病。典型的方法是在訓練這些算法時配置設定一個數字标簽(疾病:1;正常:0)。這與臨床受訓人員學習從成像掃描中診斷不同的疾病的方式有很大不同。為了提供更多的 "醫學知識",而不是簡單地對自然圖像或視訊進行預訓練,Taleb等人提出了一系列使用大型無标簽醫學成像資料集的新型自我監督預訓練技術,旨在協助開發基于3D醫學成像的人工智能系統。

神經網絡首先通過執行一組 "代理任務 "來學習 "描述 "作為輸入的成像掃描。例如,通過讓網絡像拼圖一樣 "重新組合 "輸入的掃描資料,它們可以被訓練成 "了解 "在各種病理和生理狀态下哪些解剖結構是互相一緻的。将成像掃描的資料與放射學報告配對是另一個有趣的政策,基于胸部X射線的人工智能系統取得了相當大的成功。

本着提供更細微的臨床背景并将更多的 "知識 "嵌入神經網絡的精神,報告中的文本通過最先進的自然語言機器學習算法進行處理,随後訓練視覺網絡,以更好地了解讓各種疾病 "不同"的原因。然而,最重要的是,他們表明使用這種方法可以将特定下遊分類任務的标記資料量減少多達兩個數量級。是以,未标記的成像研究,無論是單獨的還是結合成對的文本報告,都可以作為有效預訓練的基礎。随後,對較小的高品質基礎實況資料樣本進行微調,以完成特定的監督學習任務。

盡管這些步驟有助于調整現有的神經網絡架構,使其适用于醫學成像,但為特定任務設計新的架構需要專業知識。模型架構類似于大腦,而訓練後的權重(訓練中優化的數學函數)類似于思維。進化搜尋算法的進展利用機器學習方法來發現為特定任務定制的新架構,進而産生比人類建構的架構更高效和更高性能的架構。這些都為成像模式特定架構的發展提供了一個獨特的契機。

訓練深度學習算法依靠圖形處理單元(GPU)來執行大規模的并行矩陣乘法運算。雲計算 "随用随付 "的GPU資源和具有高記憶體容量的消費級GPU的可用性,都有助于降低對開發醫學成像機器學習系統感興趣的研究人員的準入門檻。盡管有了這些進展,但在大型視訊資料集上訓練複雜的現代網絡架構需要多個GPU連續運作數周。

臨床研究小組應該注意,雖然在相對便宜的計算機上訓練單一模型可能是可行的,但要找到最佳性能的正确設定組合,幾乎總是需要使用專門的硬體和計算叢集來在合理的時間範圍内傳回結果。強大的抽象層(例如,Pytorch Lightning)還允許研究小組建立内部标準,以子產品化的形式建構其代碼。采用這樣的子產品化方法,神經網絡架構和資料集可以很容易地被替換,有助于快速将過去為臨床成像模式設計的系統重新用于新的用例。這種方法也有助于通過以新的方式內建子元件來擴充這些系統的功能。

4.時間-事件分析和不确定性量化

随着醫療人工智能系統從 "診斷 "轉向更多的 "預後 "應用,時間到事件的預測(而不是簡單的二進制預測)将在臨床環境中發現更多的相關性。時間-事件分析的特點是能夠預測作為時間函數的事件機率,而二分類器隻能提供一個預定時間的預測。與二進制分類器不同的是,時間-事件分析考慮到了資料的删減,以考慮到那些失去随訪或在觀察時間範圍内沒有經曆相關事件的人。生存分析在臨床研究中很常見,也是制定循證明踐指南的核心。

用基于圖像和視訊的機器學習來擴充傳統的生存模型,可以對組織切片或醫學成像掃描中的特征的預後價值提供強有力的洞察力。例如,将Cox比例損失函數的擴充整合到傳統的神經網絡架構中,使得僅從組織病理學切片中預測癌症結果成為可能。我們不主張使用此類視覺網絡來規定如何進行護理,而是主張将其用作标記臨床醫生遺漏晚期惡性惡性良性腫瘤特征的病例的方法。

納入時間-事件分析在臨床上将越來越重要,因為在疾病不穩定或早期階段具有的可檢測特征,在一定時間後可能會迅速發展。

例如,可診斷為黃斑變性的視網膜特征往往需要數年時間才能表現出來。具有初期疾病特征的患者可能會被标記為“正常”,這讓神經網絡試圖預測未來發生黃斑變性并發症的風險。納入生存和審查的概念可能有助于訓練系統更好地将正常人與那些輕度、中度和正在快速發展中的疾病個體分開。同樣,訓練視覺網絡進行時間-事件分析可能會在用于肺癌篩查,有助于根據預期的侵略性擴散潛力進行風險分層。這種轉化工作的關鍵是要有強大的、經過充分驗證的Cox回歸的深度學習擴充。在過去的幾年裡,已經描述了大量Cox模型的深度學習實作。Kvamme等人提出了一系列的Cox模型的比例和非比例擴充,過去還描述了更多的生存方法的實作,如DeepSurv和DeepHit46(圖2)。

分享丨Nature:為高次元醫學成像設計可臨床轉化的人工智能系統

圖 2:量化機器學習輸出中的不确定性。

正如Sensoy等人所描述的那樣,即使在不正确的情況下,使用标準方法訓練的機器學習模型也可以非常自信。左圖:當一個數字被旋轉180°時,系統自信地配置設定了一個從 "1 "到 "7 "的标簽。右圖:然而,用考慮分類不确定性的方法,系統會配置設定一個不确定性分數,可以幫助提醒臨床醫生潛在的錯誤預測。

然而,從可操作的角度來看,時間-事件預測可能存在問題。在肺癌篩查的假設示例中,胸部計算機斷層掃描中的可疑結節可能會産生一個預測,即在有或沒有适當的治療幹預的情況下的中位生存率。對臨床醫生來說,了解機器學習系統對個體病人的預測的有多大的把握可能是很有意思的。當對一項任務沒有把握時,人類往往會謹慎行事。機器學習系統也反映了這一點,其中輸出是0到1範圍内的“類别機率”或“正确的可能性”。然而,目前文獻中描述的大多數醫學影像機器學習系統,當提供給模型的輸入資料超出分布範圍時,缺乏說 "我不知道 "的隐含能力。例如,即使輸入圖像是貓的圖像,訓練用于從計算機斷層掃描(例如)預測肺炎的分類器在設計上也被強制提供輸出(肺炎或非肺炎)。

在他們關于深度學習中的不确定性量化的論文中,Sensoy等人用一系列的損失函數來解決這些問題,這些損失函數配置設定了一個 "不确定性分數",以此來避免錯誤的、但有把握的預測。在項目的轉化階段,當人工智能系統被部署在與人類使用者一起工作的環境中時,不确定性量化的好處就出現了。信心度量是AlphaFold2的一個關鍵因素,該蛋白質折疊機器學習系統在第14屆蛋白質結構預測關鍵評估(CASP14)挑戰中取得了無與倫比的準确性,給DeepMind研究團隊提供了一種方法來衡量他們應該對正在生成的預測給予多大的信任。許多不确定性量化方法的實作都是在許可的情況下進行的,并且與常用的機器學習架構相容。納入不确定性量化可能有助于提高高風險的醫學成像機器學習系統的可解釋性和可靠性,并減少自動化偏差的可能性。

5.可解釋性人工智能和傷害風險

除了量化某些機器學習系統的預測效果外,對于建構這些系統的工程師和使用它們的臨床醫生來說,他們更感興趣的是了解這些機器學習系統是如何得出結論的。顯著性圖和類激活圖實際上仍然是解釋機器學習算法如何進行預測的标準。

Adebayo等人最近的研究表明,僅僅依靠顯著性圖的視覺外觀可能會産生誤導,即使乍一看它們與背景相關。在一系列廣泛的測試中,他們發現,許多流行的生成事後顯著性圖的方法并沒有從模型權重中獲得真正的意義,而是與 "邊緣檢測器"(簡單映射像素強度之間的尖銳過渡區域的算法)沒有差別。此外,即使這些可視化方法奏效,除了機器學習算法正在尋找的 "位置 "之外,也幾乎無法破譯。在很多示例中,無論是正确還是錯誤的顯著性圖看起來幾乎是一樣的。當 "患病 "狀态和 "正常 "狀态之間的差異需要關注圖像或視訊的同一區域時,這些缺點就更加明顯了。

分享丨Nature:為高次元醫學成像設計可臨床轉化的人工智能系統

圖3:事後模型解釋的誤導性。

a, Adebayo等人用MNIST資料集的真實标簽訓練的模型(上)和随機噪聲訓練的模型(下)進行的實驗。當通過大多數可視化方法進行評估時,在随機噪聲上訓練的模型仍然産生圓形形狀。b,超聲心動圖視圖平面的檢測:錯誤的分類(左上)和正确的分類(右上)都産生類似的顯著性圖(下)。

臨床醫生應該注意,僅靠熱圖不足以解釋AI系統的功能。在嘗試用如上圖所示的可視化方法來識别故障模式時,必須謹慎。一個更精細的方法可能涉及到連續遮擋測試,即在有意掩蓋臨床醫生用來進行診斷或預測的區域後,評估圖像的性能。這個想法非常直覺:在已知對診斷某種疾病很重要的區域被遮蔽的圖像上運作算法,例如,在試圖診斷心力衰竭時遮蔽左心室,應該可以看到性能的急劇下降。

這有助于确認人工智能系統正在關注相關領域。特别是在高維醫學成像研究的背景下,激活圖可能為視訊類成像研究的某些時間階段的相對重要性提供獨特的見解。例如,某些疾病可能在心髒收縮時表現出病理特征,而對于其他疾病可能需要人們關注心髒放松時的情況。通常這樣的實驗可能表明,機器學習系統從臨床醫生傳統上不會使用的圖像區域中識别出潛在的資訊特征。除了收集關于這些機器學習系統如何産生其輸出的資訊外,嚴格的可視化實驗可能提供一個獨特的機會,可以從被評估的機器學習系統中學習生物學的見解。

另一方面,激活與臨床上已知的重要區域的偏差可能預示着網絡正在學習非特異性的特征,使它們不太可能很好地歸納到其他資料集。

機器學習系統學習的特征可能取決于架構的設計。更重要的是,機器學習系統會根據提供給它的訓練資料和目标來學習和延續系統性的不平等。随着醫療保健人工智能系統不斷向未來的疾病預測發展,必須更加謹慎地考慮到這些群體在獲得醫療保健和結果方面的巨大差異。

在最近的評論中,Chen等人深入概述了從問題選擇到部署後階段的潛在偏差來源。在這裡,我們重點讨論機器學習系統開發早期的潛在解決方案。一些人主張用一些方法來解釋現代機器學習系統的其他 "黑箱 "預測,而其他人則主張一開始就限制使用更可解釋的模型。除了在訓練整個AI系統時結合結構化資料的輸入之外,中間方法還涉及使用黑盒模型訓練醫學成像神經網絡。

這可以通過建立 "融合網絡 "來實作,其中表格資料被合并到基于圖像或視訊的神經網絡中,或其他具有相同基本目标的更先進的方法(生成組合資料的低維表示的自動編碼器)。即使沒有将人口統計學輸入納入高維視覺網絡,研究小組通過比較不同性别、種族、地域和收入群體的表現來稽核他們的模型也很重要。

機器學習系統可能會無意中學會進一步延續和歧視少數民族和有色人種,是以在模型開發過程的早期了解這種偏見是至關重要的。對機器學習系統的信任對于更廣泛的采用至關重要,正如探索特定的特征或變量如何以及為什麼會導緻預測一樣,通過結合顯著性圖和估計特征重要性的模型無關的方法。

另一種方法是在訓練邏輯中限制機器學習算法,確定發生優化步驟以控制感興趣的人口統計學變量。這類似于多變量回歸模型,其中感興趣的風險因素的影響可以獨立于基線人口統計學變量來研究。從技術角度看,這将涉及到在訓練循環中插入一個額外的懲罰性損失,并牢記與稍低的模型性能的潛在權衡。例如,Fairlearn 是用于評估傳統機器學習模型公平性的流行工具包,并且已經開發了基于Fairlearn算法 (FairTorch) 的限制優化,這是在訓練過程中整合偏差調整的有希望的探索性嘗試。有許多開源工具包可以幫助研究人員确定不同變量和輸入流(圖像預測,以及諸如性别和種族等變量)的相對重要性。這些技術可能允許開發更公平的機器學習系統,甚至可以發現沒有預料到的隐藏偏見。

6.總結

盡管計算架構和擷取高品質資料是建構良好模型的關鍵,但為高維成像模式開發可轉換的機器學習系統方面還需要努力,以更好地代表資料的 "視訊 "性質。此外還需要在模型開發的早期階段建立有助于解決偏見、不确定性和可解釋性的功能。對醫學成像和人工智能的質疑是有益的,而且在大多數情況下具有一定道理。

我們希望,通過建立允許研究人員評估臨床表現、醫院工作流程中的整合、與臨床醫生的互動以及社會人口傷害的下遊風險的功能,可以在改善人工智能的傳遞方面邁出有意義的步伐。我們希望研究人員會發現這個觀點很有用,因為它概述了在臨床部署方面等待他們的潛在挑戰,并且在解決其中一些問題時可以發揮指導性意義。

繼續閱讀