編輯 | ScienceAI
近年來,數字病理學的蓬勃發展成為了精準醫學加速突破的重要組成部分。在癌症護理過程中,利用全切片成像技術将惡性良性腫瘤組織樣本轉換為高分辨率的數字圖像,已經成為正常技術。高達十億像素級别的病理學圖檔包含多樣的惡性良性腫瘤微環境資訊,為癌症分型診斷,生存率分析以及精準免疫治療提供了前所未有的契機。
近期,生成式人工智能革命為準确感覺、分析病理學圖檔中的海量資訊提供了強有力的解決方案。與此同時,多模态生成式人工智能技術的突破更将助力從時空多尺度了解數字病理學圖檔并與其他生物醫學模态相融合,進而更好刻畫患者疾病演變、發展過程,協助醫生進行臨床診斷和治療。
然而,由于數字病理學圖檔的大規模、高像素、特征複雜等特點,從計算角度高效處理和了解其中的複雜模式十分具有挑戰性。每張全切片數字化轉型之後将包含數十億像素,其面積達到自然圖像的十幾萬倍,應用現有的計算機視覺模型難度較大。傳統的視覺模型,如Vision Transformer,其計算複雜度随着輸入圖檔的大小的增加快速上升。同時,臨床醫學資料具有跨尺度、多模态和高噪聲等特點,而現有的病理學模型大多基于标準公開資料集,依然同現實世界的應用具有不小的距離。
為此,來自微軟研究院、美國Providence的醫療網絡和華盛頓大學的研究人員,共同提出了首個全切片尺度的數字病理學模型GigaPath。
GigaPath模型采取兩階段的級聯結構,和微軟研究院近期開發的LongNet架構,高效解決了十億像素級别圖像的處理和了解問題。Providence的研究人員收集到旗下28家美國醫院的3萬病人授權的17萬張全切片數字病理學圖檔,共計13億張病理學圖塊。微軟、華盛頓大學和Providence的研究人員合作将GigaPath在這些真實世界資料上進行了大規模預訓練。
實驗結果表明,GigaPath在26個任務,包含9個癌症分型和17項病理組學任務,在其中25項任務取得領先效果,在18項任務中顯著高于現有方法。
研究人員相信,該研究展示了全切片尺度層面的模組化和大規模真實世界資料的預訓練極其重要,同時,GigaPath也将為更加先進的癌症護理和臨床發現提供全新可能。
值得一提的是,GigaPath的模型和代碼已經開源,研究人員歡迎世界各地的研究者一道探索和使用GigaPath。
相關研究以《A whole-slide foundation model for digital pathology from real-world data》為題,于 5 月 22 日釋出在《Nature》上。
論文連結: https://www.nature.com/articles/s41586-024-07441-w
模型開源位址:https://huggingface.co/prov-gigapath/prov-gigapath
代碼開源位址: https://github.com/prov-gigapath/prov-gigapath
方法
圖1:GigaPath模型示意圖。
GigaPath采用兩階段課程學習,包括使用DINOv2的圖塊級預訓練和使用帶有 LongNet 的掩碼自動編碼器的全切片級預訓練(見圖1)。DINOv2是一種标準的自監督方法,在訓練教師和學生Vision Transformer時結合了對比損失和掩碼重建損失。然而,由于自注意力自身帶來的計算挑戰,其應用僅限于小圖像,例如256 × 256圖塊。
對于全切片級模組化,我們将擴張注意力(Dilated Attention)從LongNet (https://arxiv.org/abs/2307.02486) 應用于數字病理學(見圖2)。
為了處理整張全切片的長圖像圖塊序列,我們引入了一系列遞增的尺寸,用于将圖塊序列細分為給定尺寸的片段。對于較大的片段,LongNet引入稀疏注意力,稀疏性與片段長度成正比,進而抵消平方增長。最大的尺寸片段将覆寫整個全切片。這能夠以系統的方式捕獲遠端依賴關系,同時保持計算的易處理性(上下文長度呈線性)。
圖2:LongNet模型示意圖。
主要實驗結果
在癌症分型診斷方面,任務目标定位于根據病理切片對細粒度亞型進行分類。例如,對于卵巢癌,模型需要區分六種亞型:透明細胞卵巢癌、子宮内膜樣卵巢癌、進階别漿液性卵巢癌、低級别漿液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。
GigaPath在所有九項癌症分型任務中均獲得領先效果,在其中六項癌症類别分型中準确率提升具有顯著性。對于六種癌症(乳腺癌、腎癌、肝癌、腦癌、卵巢癌、中樞神經系統癌),GigaPath的AUROC達到90%或更高。這對于癌症診斷和預後等精準健康領域的下遊應用來說是個好的開始。
在病理組學任務中,任務目标定位于僅根據全切片圖像預測惡性良性腫瘤是否表現出特定的臨床相關基因突變。該預測任務有助于揭示組織形态和遺傳途徑之間難以被人類察覺的豐富聯系。除了一些已知特定癌症類型和基因突變對之外,全切片圖像中存在多少基因突變信号仍是一個尚無答案的問題。此外,在一些實驗中,研究人員考慮了泛癌場景,即在所有癌症類型和非常多樣化的惡性良性腫瘤形态中識别基因突變的通用信号。
在如此具有挑戰性的場景中,GigaPath在17項任務中的16項中再次達到了領先性能,并在其中12項任務中顯著優于第二名。Gigapath可以在整個全切片水準上提取遺傳相關的泛癌和亞型特異性形态特征,為真實世界場景下的複雜未來研究方向打開了大門。
此外,研究者通過引入病理報告進一步證明了GigaPath在多模态視覺語言任務上的潛力。此前,關于病理視覺語言預訓練的工作往往集中在圖塊級别的小圖像上。
相反,GigaPath探索全切片級别的視覺語言預訓練。通過繼續對病理學報告對進行預訓練,利用報告語義來對齊病理學圖像的隐空間表征。這比傳統的視覺語言預訓練更具挑戰性,在不利用任何單個圖像圖塊和文本片段之間的細粒度對齊資訊的情況下,GigaPath在标準視覺語言任務中顯著優于三種最先進的病理學視覺語言模型。
總結
通過豐富全面的實驗,研究人員證明了GigaPath的相關研究工作是全切片層面預訓練和多模态視覺語言模組化層面的良好實踐。
值得一提的是,盡管GigaPath在多任務上取得了領先效果,在某些特定任務層面依然具有較大的進步空間。同時,盡管研究人員探索了視覺語言多模态任務,但在朝向搭建病理學層面的多模态對話助手的道路上,依然有很多具體問題需要探索。
作者資訊
GigaPath是橫跨微軟研究院、Providence醫療系統和華盛頓大學保羅艾倫計算機學院的合作項目。其中,來自微軟研究院和華盛頓大學的二年級博士生許涵文和來自微軟研究院的首席研究員Naoto Usuyama為論文共同第一作者。來自微軟研究院Health Futures團隊的General Manager Dr. Hoifung Poon (潘海峰), 華盛頓大學的王晟教授,以及Providence的Dr. Carlo Bifulco為論文的共同通訊作者。
許涵文:華盛頓大學二年級在讀博士生。研究方向為AI和醫學交叉。科研成果發表于Nature, Nature Communications, Nature Machine Intelligence, AAAI等。曾擔任Nature Communications, Nature Computational Science等子刊審稿人。
王晟:華盛頓大學計算機系助理教授,研究方向專注于AI和醫學交叉。科研成果發表于Nature, Science, Nature Biotechnology, Nature Machine Intelligence and The Lancet Oncology, 研究轉化成果被Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine,Providence等多個醫療機構使用。
潘海峰:微軟研究院Health Futures General Manager,研究方向為生成式AI基礎研究以及精準醫療應用。在多個AI頂會獲最佳論文獎,在HuggingFace上釋出的開源生物醫學大模型總下載下傳量達數千萬次,部分研究成果開始在合作的醫療機構和制藥公司中轉化為應用。