天天看點

專家論壇|劉景豐:深度學習在原發性肝癌相關診斷模型中的應用與前景

作者:臨床肝膽病雜志
專家論壇|劉景豐:深度學習在原發性肝癌相關診斷模型中的應用與前景
專家論壇|劉景豐:深度學習在原發性肝癌相關診斷模型中的應用與前景

原發性肝癌(簡稱肝癌)的發病率和病死率均居所有惡性良性腫瘤的前5位[1], 是男性癌症相關死亡的第2大原因, 女性癌症死亡的第6大原因[2], 2015年中國統計數字顯示, 肝癌是國内第4位惡性惡性良性腫瘤, 惡性良性腫瘤緻死病因則位于第3位[3]。大資料時代, 随着人工智能的快速發展, 各種數學算法也在肝癌的海量資料中得到廣泛應用, 資料挖掘和雲計算等不斷層出的分析技術, 為肝癌的診療分析提供了更加便利的方法, 涉及到肝癌病因、基因組學、代謝組學、影像組學、蛋白組學、病理學、複發預測及生存風險分析等各個方面的機器學習方法的研究[4-6]。

機器學習是一種實作人工智能的方法, 機器學習最基本的做法, 是使用算法來解析資料、從中學習, 然後對真實世界中的事件做出決策和預測, 具有機器模仿、識别和學習人類大腦認知功能的作用, 随着人工智能的發展也日漸受到關注[7]。機器學習是用大量的資料來“訓練”, 通過各種算法從資料中學習如何完成任務, 其主要内容就是各種學習算法。深度學習涵蓋于機器學習算法, 是目前最熱的機器學習算法, 能基于大量積累的醫療資料産生計算模型, 通過訓練, 在面對新的患者時, 會提供相應的判斷(譬如肝癌可能發生的風險、再複發的風險以及生存風險等)。對于癌症, 與傳統的方法相比, 初期的機器學習即具有圖像識别和特征選擇的優勢[8-9]。而近年來, 深度學習算法被開發用于檢測乳腺癌女性前哨淋巴結的轉移, 并表現出比病理學家更好的診斷性能[10]。在肝癌的診斷與複發領域, 利用大資料平台, 相對于傳統的邏輯回歸或Cox回歸, 深度學習模型表現出更好的診斷與預測性能。傳統機器學習的算法包括決策樹、聚類、貝葉斯分類、支援向量機、EM、Adaboost等, 而機器學習的算法可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、內建學習、深度學習和強化學習, 其中主要包括監督學習、半監督學習和無監督學習3種[11], 如監督學習代表有:随機森林(RF)、梯度增強機(GBM)、支援向量機(SVM)、決策樹、k近鄰(KNN)、人工神經網絡(ANN)等;半監督方法代表有:最大期望、生成模型和圖算法、主成分分析等。無監督學習方法代表有:先驗算法(Apriori)、分叉樹、K-均值(K-means)以及目前比較火的深度學習[12]。目前, 深度學習廣泛應用于醫學預測模型, 而深度學習其本身也會用到有監督和無監督的學習方法來訓練深度神經網絡。本文将深度學習在肝癌診斷、複發中應用進展介紹如下。

1構模組化型預測肝癌發生風險應用

1.1 建構血清蛋白質組學模型協助早期診斷

血清AFP是目前肝癌診斷随訪複發的一種重要檢查方法, 仍然被認為是血清惡性良性腫瘤标志物中的金标準[13]。早在2001年, Poon等[14]通過深度學習算法計算出了AFP cut-off值, 進而首次建構了血清AFP肝癌診斷模型。Camaggi等[15]在2010年篩選了45例HCV相關肝硬化、早期肝癌及晚期肝癌病例, 通過深度學習對522份血清樣本進行訓練得到多種蛋白質組學特征, 其所模組化型對其中43個可能區分伴或不伴肝硬化、伴或不伴血管浸潤的肝癌病例進行了正确分類。2011年Patterson等[16]也通過深度學習, 對血清中甘氨酸脫氧膽酸鹽、脫氧膽酸3-硫酸鹽、膽紅素水準、溶血磷脂水準進行例模型訓練, 建構了的肝癌發生的血清學預測模型。2014年Wang等[17]應用同樣的方法建立了HBV相關肝硬化進展的早期肝癌進行診斷的預測模型, 主要通過血清肽和AFP聯合檢測資料訓練完成。Estevez等[18]2017年應用随機森林訓練模型模組化, 檢測了411例HBV及HCV感染的肝細胞癌(HCC)病例的血清細胞譜, 該模型從深度學習算法角度說明了有或無HCC的HBV或HCV感染者, 其體内細胞因子分泌明顯不同, 疾病發病機制和疾病特征存在潛在差異。這些文獻的報道, 使血清學名額的檢測及學習訓練對各種情況下肝癌的協助診斷提供了很大的幫助。

1.2 構模組化型優化影像學診斷

肝癌通常通過肝活檢或增強計算機斷層掃描(CT)和磁共振成像技術進行診斷[19], 近年來深度學習算法和模型也大量應用于基于癌症圖像的診斷、預後和預測[20-21]。卷積神經網絡( CNN) 允許在識别肝髒腫塊和識别病理病變的特定特征時解釋HCC圖像[22], 伴随着計算機計算能力的猛進發展, 深度學習的模型算法也逐漸深入, 而肝癌影像診斷所涉及的深層神經網絡的研究陸續增加, 包括多層神經網絡、深度信念網絡、CNN等多種算法的應用。2017年, Pang等[23]報告了一種凹凸變優化稀疏貢獻特征選擇和分類器的深度學習用以提高肝癌圖像識别, 在凹凸變分(CCV) 方法來優化的3種分類器(随機森林分類器、支援向量機分類器和極限學習機分類器)中, CCV-随機森林分類器更能準确的識别肝癌圖像。但是作為一種“不可解釋的”深度學習模型, 其存在着“黑盒子”效應。2019年, Wang等[24-25]在其報道的肝惡性良性腫瘤診斷的深度學習系列研究中, 初次提出一種概念驗證的“可解釋的”深度學習模型, 即利用放射成像特征的CNN, 識别測試病竈中正确的影像特征。這種“可解釋的”深度學習模型可與标準化報告系統(如LI-RADS)對接, 添加了定量資料又利用了影像的相關輔助特征, 進而提高了臨床實用性, 其陽性預測值和靈敏度也分别達到了76.5%和82.9%。此外, 在多相核磁圖像上, 基于概念驗證CNN的深度學習系統(DLS)對常見肝髒病變進行分類的研究中, 通過與高年資醫師的測試比較, 肝癌分類深度學習系統測試出更高的準确度、敏感度和特異度。2020年Shi等[26]報道了密集卷積神經網絡的深度學習方法可優化增強CT對肝髒惡性良性腫瘤的診斷, 又進一步豐富了影像組織性的深度學習内容。

1.3 構模組化型優化病理學檢查

2010年, Cucchetti等[27]應用人工神經網絡術前預測HCC惡性良性腫瘤分級及微血管侵犯, 通過收集250例有肝硬化的HCC患者的臨床、影像學群組織學資料, 随機選取175例患者建立人工神經網絡和邏輯回歸模型, 對其餘75例患者進行測試。其中術前血清AFP、惡性良性腫瘤數量、大小和體積與惡性良性腫瘤分級和MVI相關(P<0.05), 用于建構ANN。在訓練組, 用于惡性良性腫瘤分級和MVI預測的受試者工作特征曲線下面積(AUC)分别為0.94和0.92, 均高于邏輯回歸模型(均為0.85)(P<0.001)。在測試組中, 人工神經網絡正确識别了93.3%的惡性良性腫瘤分級(k=0.81)和91% 的MVI (k=0.73)。邏輯回歸模型正确識别了81%的惡性良性腫瘤分級(k=0.55)和85%的MVI (k=0.57)。是以, 與傳統線性模型相比, 人工神經網絡更準确地預測肝癌惡性良性腫瘤分級和MVI, 可應用于優化病理學檢查。2017年Li等[28]通過病理學專家的指導對病理切片感興趣區做相應标記來識别肝癌細胞的細胞核, 所建構的多重連接配接的CNN模型在細胞核分級方面展現了一定優越性。Pang等[23]2017年同樣在病理學專家的指導下獲得每個肝癌患者的HE染色的病理圖像, 建構了一種CCV方法, 其中CCV-随機森林算法與其他算法相比較準确率達到98.74%, 對肝癌的病理圖像分類最為準确。2020年, Liao等[29]建立了基于深度學習的深度卷積神經網絡模型, 可明确區分肝癌惡性良性腫瘤和鄰近正常組織, 實作了HCC的自動診斷和體細胞突變預測, 也逐漸深化了病理學的深度學習研究。

1.4 建構代謝組學模型協助診斷

2016年Liang等[30]使用由LC-QTOF-MS結合多變量資料分析方法對HCC患者的尿液進行代謝分析, 在人尿代謝組中所發現的15種不同代謝物中, 5種标志代謝物可有效診斷HCC, 所建立的預測模型預測敏感度為96.5%, 特異度為83%。Wang等[31]2018年基于随機森林建立了兩種新的模型:固定序列模型和兩步模型, 結合肝癌和非肝癌患者尿液中提取多個尿DNA生物标志物評估模型的敏感度、特異度、AUC和變異性, 認為多個尿生物标志物的評估模型有一定潛力進行自我訓練并完成HCC患者的雲篩選。

1.5 建構基因組學模型協助早期診斷

2014年Ibrahim等[32]基于深度學習和主動學習, 進行特征性選擇的思想在生物資訊領域的模型建構, 通過考慮miRNA和基因之間的生物關系, 擴充使用了該技術的miRNA, 內建了兩種無監督機器學習方法, 選擇最少的最有鑒别力的基因, 提高了肝癌樣本分類的準确性, 所提出的特征性選擇方法優于經典的功能選擇算法。2015年Gui等[33]建構了一個源自STRING資料庫中蛋白質-蛋白質互相作用(PPI)資料的分子互相作用網絡, 并确定187個基因之間的最短路徑與機器學習方法确定的基因, 且找到了117個基因探針, 可以最優的分離惡性良性腫瘤和非惡性良性腫瘤樣本。為了解HCC的發展過程提供了新的視角。

随着基因測序技術的發展, 大量的基因測序資料随着複雜的深度學習技術的提高處理能力也得到提升。2018年Augello等[34]報道, 在預測HCC的生物标志物與HCV相關肝硬化患者風險的研究中, 使用機器學習分類器發現MICA的基因位點rs2596542和rs2596538變異體值得進一步研究, 其與HCV相關肝癌關系密切。在一項從肝移植受者的移植肝髒中獲得的59個組織樣本的研究中, Kim等[35]制作了cDNA微陣列, 每個樣本中有超過9000個基因。通過使用KNN和支援向量機方法, 在肝硬化有發生肝癌風險的高危患者中識别出30個顯著改變基因的分子标記。這些基因可以作為診斷高危人群早期肝癌的候選标記, 并可能指導新的化學預防政策。2020年Shen等[36]利用資料庫和機器學習方法, 建構并驗證了HCC患者複發的預測模型, 獲得了預測肝癌早期複發的基因信号, 并驗證了突變的基因, 準确度為74.19%, 而模型的驗證成功率達到80%, 為臨床預測肝癌複發提供了有意義的指導。

2構模組化型預測肝癌術後複發與生存風險應用

肝癌術後複發風險、生存預測等關系着患者術後及後期的生命健康, 通過機器深度學習的相關研究為臨床患者的治療提供了很多指導, 所建構的預測模型在臨床中也得到初步應用。2012年Ho等[37]報道基于HCC資料庫, 對接受肝切除患者術後1、3、5年的無病生存率模組化預測, 分别使用ANN、邏輯回歸(LR)及決策樹3種算法建構了模型, 結果人工神經網絡模型(ANNS)的精确度更高, 表明在醫療決策系統中使用ANNS對肝切除術後患者預測較為理想。2012年Shi等[38]報告了目前最大樣本量的模型評估研究, 共納入22 926例接受過肝切除術的HCC患者, 通過傳統的邏輯回歸模型和人工神經網絡模型比較分析, ANNS在預測住院病死率方面更準确(準确度97.28%), 更具有綜合評價的意義。2014年Qiao等[39]使用ANN、LR建立早期HCC根治切除手術的患者術後生存預測模型, 發現ANNS比其他模型AUC更高。機器學習在處理含有缺失值的資料集時具有較大的靈活性。2020年Huang等[40]對7919例肝癌患者臨床病理資料進行分析報告, 在使用Cox回歸、深度學習、随機生存森林、極度梯度等算法建構肝癌根治性切除術後複發預測模型發現, XGBoost的精确度最高。以上研究結果證明ANN等機器深度學習在肝癌患者預後預測模型中具有良好的前景, 在醫療決策支援系統中應用的可行性。

Tseng等[41]2015年為了提高利用多個測量值預測臨床結局的準确性, 提出了一種新的多時間序列資料處理算法, 收集了83例肝癌患者的臨床資料, 采用徑向基函數核的多測量支援向量機作為肝癌複發多元測量随機森林回歸的模型。結果提示該算法能顯著提高HCC複發預報性能, 且多次測量比單次測量更有價值。2017年Qiu等[42]通過使用機器學習中Lasso算法及SVM-RFE算法, 針對早期576例肝癌患者的基因CpG甲基化水準檢測所得到的資料模組化分析, 從甲基化的角度建立了預測早期肝癌複發風險的模型。Xu等[43]2017年也對血清中循環惡性良性腫瘤DNA甲基化水準進行檢測, 共檢測1098例肝癌患者和835例正常人, 資料使用Lasso算法及随機森林算法篩選, 共選出10個标志物建立了肝癌診斷模型;并使用機器學習中Lasso-Cox算法篩選出8個标志物建構預測肝癌預後風險模型。由此可見術後複發與生存風險模型的建立通過深度學習的方法也可達到一定臨床指導效果。

3構模組化型預測射頻消融(RFA)、經導管肝動脈化療栓塞術(TACE)生存風險應用

RFA、TACE是肝癌患者不可或缺的重要輔助治療手段, 主要針對無法耐受手術切除和不能手術切除的肝癌人群。2014年Liang等[44]報告了83例接受RFA治療的HCC患者, 共采用了5種特征選擇方法, 包括遺傳算法(GA)、模拟退火算法(SA)、随機森林算法(RF)及混合算法(GA+RF和SA+RF), 從總共16個臨床特征中選擇一個重要的特征子集, 這些方法與SVM開發具有更好的性能預測模型相結合, 最終結論提示SVM的預測模型可以提示高風險複發患者。2020年Brehar等[45]文獻報告納入RFA和放療患者214例和205例, 通過放射組學特征和重要臨床變量建立RFA和放療的列線圖, 評估愈後, 結論提示深度學習建立的放射組學模型和列線圖實作了對RFA與放療的無進展生存期的準确預測, 可以促進二者之間的優化治療選擇。預測肝癌接受肝動脈化療栓塞治療反應由Abajian等[46]2018年報告, 研究包括36例HCC患者, 使用磁共振成像和臨床患者資料, 建立一個人工智能(AI)架構, 通過應用機器學習技術預測接受TACE治療患者的愈後。用臨床資料、基線影像和治療特征訓練LR和RF, 結果顯示, 結合患者臨床資料和磁共振圖像資料, 應用機器學習算法可以在術前預測肝癌患者TACE的結果。2020年Peng等[47]收集了國内多中心共789例中期肝癌患者, 建立一個轉換學習技術的殘差CNN預測模型, 預測TACE治療的效果, 可以更好的幫助臨床醫生篩選哪些患有HCC的患者更能夠從介入治療中獲益。

4其他

近年來, 深度學習不僅在基于圖像的癌症檢測和治療預測方面, 而且在多組學資料的內建方面也取得了一些進展。Chaudhary等[48]報道使用RNA(RNA-Seq)測序、miRNA(miRNA-Seq)甲基化資料和TCGA的甲基化資料建構360例HCC患者的生存敏感模型, 該模型可将患者分為兩種因生存率而有顯著差異的最佳亞型。Nam等[49]用基于傳統回歸方法的DL算法, 建構了563例患者肝移植後HCC複發的預測模型。這項多中心研究表明, 惡性良性腫瘤直徑、年齡、AFP水準和維生素K缺失或拮抗劑Ⅱ(PIVKA-Ⅱ) 是基于AI的肝移植後複發模型(MoRAL-AI)的最大權重參數。

人體和惡性良性腫瘤的生物多樣性決定着任何深度學習的模型并不能适用所有的患者。AI在肝癌的診療領域也一直在研發, 幫助臨床醫師的智能輔助決策系統。Singal等[50]開發機器學習模型, 并與傳統預測模型進行比較;其中基于決策樹的随機森林模型(C-statistic為0.71)比正常回歸模型(C-statistic為0.64)的效果更好。然後在另一隊列(1050例HCV相關HCC患者)中驗證, 機器學習模型(敏感度為80.7%、特異度為46.8%)比傳統模型(敏感度70.7%、特異度41.6%)的結果也更優。Divya等[51]2019年在對HCC射頻術後複發與否的算法研究中, 提出一種有效的抽樣方法, 使用逆随機抽樣, 以克服類不平衡問題。同時也提出了一種優化方法, 使用人工植物優化算法(APO)來選擇最有特征和參數分類, 以提高分類的有效性和效率。利用SVM和RF分類器, 基于最優特征和參數對肝癌患者和非肝癌患者進行分類。Giordano等[52]報道探針電噴霧電離質譜與AI相結合, 用來評估SVM和RF兩種算法的整體診斷準确度。該方法在肝癌診斷上具有較高的準确度、特異度和敏感度。這兩種算法的總體診斷準确度均超過94%。該研究的主要限制是所有樣本來自同一臨床中心, 可能會限制機器學習的能力, 不過即便如此, 他所提出的方法也可以被轉化到外科惡性良性腫瘤的臨床實踐中并得到廣泛應用, 最終可能體改惡性良性腫瘤患者治愈的終極目标。

5小結及展望

在醫療保健和資訊技術不斷更新的時代中, 越來越多利用資料科學和技術使醫療保健個性化, 并增強與患者的互動。AI伴随着計算機科學技術的飛速發展, 深度學習技術同樣會不斷深入發展, 深度學習所建構的各種模型在肝癌研究領域的應用也會更加深入。未來, 深度學習這些研究領域應該涉及多個中心的合作, 應該包括更大樣本量的肝癌患者, 這樣才能使AI、機器學習、深度學習在肝癌的診療中發揮更大的作用。

檢視參考文獻目錄或免費下載下傳PDF

http://www.lcgdbzz.org/cn/article/doi/10.3969/j.issn.1001-5256.2022.01.003
專家論壇|劉景豐:深度學習在原發性肝癌相關診斷模型中的應用與前景

引證本文

張清華, 李海濤, 方國旭, 等. 深度學習在原發性肝癌相關診斷模型中的應用與前景[J]. 臨床肝膽病雜志, 2022, 38(1): 20-25.

本文編輯:林姣

公衆号編輯:邢翔宇

專家論壇|劉景豐:深度學習在原發性肝癌相關診斷模型中的應用與前景

2022年第1期 整期免費下載下傳

百度網盤:

https://pan.baidu.com/s/1WlIcRIY74GMETWM57x9hGA?pwd=1985

繼續閱讀