天天看點

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review

  • 0. Abstract
  • 1. Introduction
  • 2. Fusion strategies: an overview
  • 3. Early fusion
    • 3.1 Direct modeling
    • 3.2 Latent representation with multimodal AEs
      • 3.2.1 Autoencoders
      • 3.2.2 Variational AEs 變分AEs
    • 3.3 Discussion of early fusion strategies
  • 4. Intermediate fusion
    • 4.1 Homogeneous network design 同構網絡設計
      • 4.1.1 Marginal homogeneous fusion 邊緣同質融合
      • 4.1.2 Joint homogeneous fusion 聯合同質融合
    • 4.2 Heterogeneous network design 異構網絡設計
      • 4.2.1 Marginal heterogeneous fusion
      • 4.2.2 Joint heterogeneous fusion
    • 4.3 Discussion on intermediate fusion
  • 5. Late fusion
    • 5.1 Discussion of late fusion
  • 6. Discussion and conclusion

這個系列會解讀一些列醫學多模态融合的文章,了解近在醫學領域這兩年(2020之後)最新的多模态融合方法.

paper4: Multimodal deep learning for biomedical data fusion: a review

國内打不開連結,需要原文的連結加v發:liyihao76

0. Abstract

生物醫學資料正變得越來越多模式,進而捕捉生物過程之間潛在的複雜關系。基于深度學習 (DL) 的資料融合政策是對這些非線性關系進行模組化的一種流行方法。是以,我們回顧了此類方法的最新(state-of-the-art)技術水準,并提出了詳細的分類法(taxonomy),以促進更明智地選擇生物醫學應用的融合政策,以及對新方法的研究。通過這樣做,我們發現深度融合政策通常優于單峰(unimodal)和淺層(shallow)方法。此外,所提出的融合政策的子類别顯示出不同的優點和缺點。對目前方法的回顧表明,特别是對于中間融合政策,聯合表示(joint representation)學習是首選方法,因為它有效地模拟了不同層次生物組織的複雜互相作用。最後,我們注意到,基于先前生物知識或搜尋政策的漸進式融合是一條有前途的未來研究道路。同樣,利用轉移學習可能會克服多模态資料集的樣本量限制。随着這些資料集越來越多,多模态DL方法提供了訓練整體模型的機會,這些模型可以學習健康和疾病背後的複雜調節動态。

  • Keywords: fusion strategies, data integration, deep neural networks, multimodal machine learning, representation learning, multi-omics(多組學)

1. Introduction

單個細胞和完整的生物體是典型的複雜系統,因為它們由許多不同的部分組成,這些部分互相作用并産生緊急行為 [ 1 ]。在嘗試對複雜疾病進行預測時,了解這些互相作用尤為重要。資料模态是使用特定傳感器 [ 2 ] 測量此類現象的結果,是以它本身提供的資訊有限。使用多模态資料,可以獲得有關各個部分及其緊急行為的資訊。由于高通量技術的快速發展,我們現在可以前所未有地通路大規模多模态生物醫學資料,進而有機會利用這些更豐富的資訊。

資料融合是來自不同模式的資料的組合,這些模式提供對常見現象的不同觀點以解決推理問題。與單峰方法相比,這有望以更少的錯誤解決此類問題 [ 3 ]。更具體地說,資料融合的優勢可以分為互補、備援和協作特征 [ 4、5 ] ,盡管這些特征并不互相排斥。

資料融合在生物醫學領域的優勢可以通過對癌症患者的多模态研究來說明。來自惡性良性腫瘤的基因組資料能夠識别癌症驅動基因,而來自活組織檢查的全幻燈片圖像 (WSI) 提供了惡性良性腫瘤形态和微環境的視圖。這些模式是“互補的”,因為它們提供了有關現象的不同部分的資訊,否則無法觀察到。轉錄組學和蛋白質組學資料的融合是互補的,因為所有的 mRNA 都沒有翻譯成蛋白質,并且是“備援的”,因為蛋白質的豐度證明了特定 mRNA 到蛋白質的翻譯。當資料嘈雜或有許多缺失值時,這種備援尤為重要。來自同一惡性良性腫瘤的 miRNA 和 mRNA 測序的資料可以被認為是“合作的”,因為組合資訊增加了複雜性。兩種模式的融合為例如緻癌基因的蛋白質的差異豐度提供了可能的解釋。這可能在預測患者對某種治療的反應方面發揮重要作用。

融合政策的目的是有效地利用不同模态的互補、備援和協作特征。為了充分利用這些對感興趣現象的看法,必須部署機器學習 (ML) 方法,這些方法能夠融合具有不同統計特性、非生物變異來源、高維性的結構化和非結構化資料 [ 6 ]以及不同模式的缺失值 [ 2 ]。

近年來,多模态 ML 方法在各個領域得到越來越多的研究和應用 [ 6 , 11 ]。圖 1說明了生物醫學領域的這種趨勢。多模态深度學習 (DL) 尤其具有優于淺層資料融合方法的優勢。全連接配接神經網絡 (FCNN) 是深度神經網絡 (DNN) 的傳統形式,可以看作是有向無環圖,它映射輸入X到label Y是通過幾個隐藏層的非線性計算操作[ 12 ]。表 1總結了常見的 DL 架構。此類算法的目标是學習輸入資料的進階表示,通過找到潛在的分離因素之間的簡單依賴關系來改進最終分類器的預測。較早的層學習資料的簡單抽象,而較深的層将這些組合成更抽象的表示形式,這些表示形式為學習任務提供資訊 [ 13 ]。至關重要的是,多模态 DL 能夠模拟非線性模态内和模态間關系。這導緻其在各種領域的應用[ 2]. 然而,生物醫學應用面臨多模态融合的特定挑戰,例如與組合次元相比樣本量較小、整個模态缺失以及模态之間的次元不平衡。

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

Fig1: 技術和多模态深度學習(DL)的發展。" Omics "和 "multi-omics "資料在科學文獻中變得越來越相關。為了充分利用越來越多的多模态資料集,基于DL的資料融合方法正在演變成生物醫學領域的一個重要方法。這種前所未有的資料産生是由微陣列和下一代測序等高通量技術實作的[7]。大量RNA-seq的發展之後,又出現了一些相關的測序技術,如單細胞RNA-seq和ATAC-seq[8]。目前,空間轉錄組學[9]和單細胞多組學[10]正在被越來越多地使用。

Architecture Description
Fully connected neural networks FCNNs是最傳統的深度神經網絡(DNNs)。在一個層中,每個神經元都與後續層的所有神經元相連[12]。
Convolutional neural networks CNN能夠對空間結構進行模組化,如圖像或DNA序列。每個神經元都與後續層的所有神經元相連。在卷積層中,卷積核在輸入資料上滑動以模拟局部資訊[12]。
Recurrent neural networks RNNs通過維護一個編碼先前時間步驟資訊的狀态向量,對順序資料進行良好的模組化。這個狀态由網絡的隐藏單元表示,并在每個時間步驟中更新[12]。
Graph neural networks GNNs是由實體和它們的連接配接組成的圖形模型,代表了例如組織的分子或細胞核。GNNs的層可以采取不同的形式,如卷積和遞歸[14]。
Autoencoders AE通過首先壓縮輸入資料,然後重建原始輸入資料來學習低維的編碼。層可以是不同的類型,如全連接配接或卷積[15]。

Talbel1: 人工神經網絡的常見架構。人工神經網絡的拓撲結構對模型的性能有很大影響。不同的架構更适合某些資料類型

盡管已經審查了用于生物醫學應用程式的 DL 架構 [ 16 ],但針對異構資料的不同的基于 DL 的融合政策尚未得到審查。這在本綜述中得到解決,我們在其中描述了生物醫學領域中基于 DL 的融合政策的最新技術水準。此外,我們提出了一個分類法,它不僅概述了早期、中期和晚期融合的标準分類,而且還描​​述了對希望應用或增強目前方法的研究人員和從業者有用的子類别。此外,本綜述的目的是為不同融合政策在哪些條件下最有可能表現良好提供指導。

為此,首先概述了主要的融合政策,并提出了更詳細的分類法。接下來,較長的描述早期、中期和晚期融合類别及其子類别,并廣泛舉例說明其在生物醫學問題中的應用。最後,我們讨論了所描述的政策在生物醫學領域的挑戰和機遇,并為未來的研究提出了建議。

2. Fusion strategies: an overview

DNN 學習輸入資料的層次表示的能力使它們特别适合應用于多模态學習問題。如何以一種能夠有效組合異質模态的方式找到邊緣(marginal)和聯合表示(joint representations)的挑戰是多模态融合的核心 [ 11 ]。是以,我們在提出詳細的分類法時采用了表征學習的觀點(見表 2)。

Fusion strategy Taxonomy Subcategory 1 分類法子類1 Taxonomy Subcategory 2 Papers
Early fusion Approach Architecture
Direct modeling Fully connected [17–19]
Convolutional [20–23]
Recurrent [20, 24]
Autoencoder Regular [25–34]
Denoising [33, 35–37]
Stacked [37–40]
Variational 變分的 [33, 40–42]
Intermediate fusion Branch Representation
Homogeneous design同質化設計 Marginal [43–49]
Joint [21, 28, 38, 41, 50–63]
Heterogeneous designs 異構設計 Marginal [64–68]
Joint [69–81]
Late fusion Aggregation聚合 Model contribution
Averaging Equal [82–84]
Weighted [82–84]
Meta-learning Weighted [83, 88]

Talbel2: 基于多模态 DL 的資料融合方法分類。早期融合政策根據應用架構進行細分。中期政策根據它們在單峰分支中的層類型以及是否學習了聯合表示進行了子分類。後期融合政策根據其聚合類型進行細分

“邊際表示(Marginal representation)”被定義為單峰(unimodal)輸入資料轉換的結果,理想情況下是以發現潛在有用因素的方式。“聯合表示(joint representation)”由代表基于多種模态(multiple modalities)的潛在因素的特征組成,是以編碼資訊可能是互補的、備援的或合作的。Baltrušaitis等人[ 11 ] 還描述了“協調表示”,其中多模式資料未投影到公共空間中。學習到的邊緣表示受到其他模态表示的限制,例如相似性限制。

在很大程度上,融合政策可以根據融合層的輸入狀态分為早期、中期和晚期融合 [ 2 ](圖 2中的藍色層)。

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

Fig2: 基于DL的融合政策。标記為藍色的層是在不同的模式之間共享的,并學習聯合表征。(a) 早期的融合政策将一個連接配接的向量作為輸入, 沒有學習邊際表示(marginal representation)。(b) 中間融合政策首先學習邊緣表征,然後在網絡中融合這些表征。這可以在一層或逐漸發生。(c) 後期融合政策結合每個模式的子模型的決定。圖檔改編自[2]。

在“早期融合”中,原始輸入資料被連接配接起來,生成的向量被視為單峰輸入(unimodal input),這意味着 DL 架構不會區分來自哪個模态特征(參見圖 2a )。 直接學習多模态輸入的聯合表示,沒有明确學習邊際表示。我們進一步區分了基于輸入資料“直接模組化”的早期融合,通過 DNN 等同于它們的單峰對應物,以及首先學習低維聯合表示的“自動編碼器”(AE) 方法,後者又用于進一步模組化與監督或無監督方法。

早期融合的優勢在于其簡單性,因為無需做出關于如何提取邊緣表示的設計選擇。盡管它很簡單,但早期融合政策可以從低級特征中學習跨模态關系。然而,這種方法可能無法識别模态之間的關系,因為它們隻在更高的抽象層次上變得明顯,因為沒有明确學習邊緣表示。此外,早期融合政策對模态的不同采樣率很敏感 [ 2 ]。

在“中間融合”中,學習并融合了特征向量形式的邊緣表示,而不是原始多模态資料(參見圖 2b)。這種邊緣表示可以通過相同類型的神經網絡(完全連接配接、卷積神經網絡等)學習,是以我們将其稱為“同構”設計網絡。或者,邊緣表示是通過不同類型的網絡學習的,是以稱為“異構”設計。正如命名所暗示的那樣,前者在模态同質(homogeneous)時更常見,而後者更好地處理多模态資料的異質性(heterogeneity)。

我們進一步區分 "邊際 "中間融合和 "聯合 "中間融合,前者是将邊際表征串聯起來并直接輸入到分類器中,後者是學習更抽象的聯合特征。邊緣中間融合有時也被稱為特征後期融合或後期融合。我們把這些方法歸類為中間融合,因為融合層的輸入是特征,而後期融合被定義為子模型的決策融合。然而,需要注意的是,文獻中使用了不同的術語。在聯合中間融合中,可以發現進一步的多模态分解因素,進而提高最終分類器的性能。在這種情況下,漸進式融合成為一種有趣的可能性,其中高度相關的模态被提前融合,而其他模态則在架構的後期被融合[2]。

中間融合政策的優勢在于它們可以靈活地找到融合邊緣表示的正确深度和順序。這可以說更密切地反映了模式之間的真實關系。是以,可能會發現更有用的聯合和邊際潛在因素。DL 架構特别适用于中間融合,因為它們很容易通過将邊緣表示連接配接到共享層來融合邊緣表示,并将層次表示與自然世界對應起來。

在“後期融合”中,不是合并原始資料或學習到的特征,而是将單獨的單峰子模型的決策合并為最終決策 [ 2 , 11 ](參見圖 2c)。這允許學習良好的邊緣表示,因為每個模型都可以适應特定的模态。此外,子模型的誤差可能不相關,是以具有互補效應 [ 2]. 但是,最終模型無法學習對資料或特征級别的多模态影響。我們根據子模型決策的聚合方式進一步區分後期融合政策。這些預測可以以相等或權重的方式“平均”。或者,在 ML 模型接收預測機率作為輸入并學習做出最終預測的情況下執行“元學習”。

3. Early fusion

3.1 Direct modeling

在某種程度上,DL的成功可以歸功于從大資料集中學習得很好,即使特征的數量很高[89]。然而,生物醫學領域的資料集往往具有較小的樣本量,特别是與它們的次元相比。盡管如此,早期融合的一種方法是将不同模式的輸入特征串聯起來,形式上是 x c o n c a t = x 1 ∣ ∣ x 2 ∣ ∣ . . . ∣ ∣ x m x_{concat}=x_1||x_2||...||x_m xconcat​=x1​∣∣x2​∣∣...∣∣xm​,其中x_i是一種模式的輸入向量(見圖3a)。由此産生的連接配接向量 x c o n c a t x_{concat} xconcat​被輸入到DL架構的第一層。該神經網絡不區分來自不同模态的特征。在這種方法中,跨模态和模态内的相關性是在一個低水準的抽象中同時學習的。

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

Fig3: 早期融合政策。( a ) 單峰向量堆疊替代方案。dim(M)是模态集M的組合維數。m是模式數,t是步驟數。( b ) 用于早期融合的正常 AE 架構,融合層标記為藍色。( c ) 變分 AE 基礎假設的可視化。

如果特征的排序與學習任務無關,矢量 x c o n c a t x_{concat} xconcat​可以用全連接配接輸入層來模組化,如文獻[17, 18]和文獻[19]中的限制。如果輸入特征的排序包含結構資訊,如基因組資料或臨床資料的時間序列的情況下,遞歸層[20, 24]或卷積層[20, 21, 23]可以應用于串聯的向量。在這種情況下,順序資訊也可以作為每個樣本的矩陣來堆疊,而不是一個串聯的一維矢量。例如,矩陣中的每一列可以代表基因組中的一個位置,行代表模式(見圖3a)。在卷積層的情況下,核心可以在矩陣上滑動以提取相關特征。在遞歸層的情況下,每一列可以被看作是一次性的步驟。

3.2 Latent representation with multimodal AEs

3.2.1 Autoencoders

另一種常用的從xconcat中學習的方法 的另一種常用方法是找到一個較低次元的聯合潛在表示,其中包含重建原始輸入的必要資訊。AE是一種架構,能夠通過編碼器函數f(x)和解碼器函數g(z)以無監督的方式從輸入x中學習這種嵌入z(見圖3b)[15]。這很有用,因為輸入x的一些潛在因素 也解釋了條件機率p(y|x) [13]。AE的目的是最小化重建損失函數。

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

其中x^ 是重構的輸入。通過最小化重建損失,AE的目标是接近原始輸入特征。如果f(x)和g(z)是線性函數,那麼z位于主成分子空間中,使得AE類似于主成分分析。然而,如果編碼器和解碼器是非線性的,并且資料中存在非線性,它們可以将輸入特征映射到一個比原則分量更有資訊量的低維空間中的流形。為了提取這個低維流形,有必要通過設定構成z的神經元數量低于x的二維性來限制架構,也被稱為AE的不完全性[12]。重要的是,嵌入空間中的單一潛在因素可能在一個以上的模式中變得可見,是以證明了使用多模式AE的合理性,以 x c o n c a t x_{concat} xconcat​ 作為輸入。

盡管 AE 并非早期融合政策所獨有,但它們經常在生物醫學文獻中用于學習聯合表示(joint representations)。學習後,聯合表示z可用于進一步模組化。例如,在癌症患者生存子類型分析中,通常在通過 AE 進行聯合表示學習之後是使用單變量 Cox 比例風險 [ 90 ] 模組化進行特征選擇的步驟。然後使用標明的潛在特征通過無監督方法為每個患者推斷與其風險子類型相對應的标簽。最終在這些标簽上訓練了一個監督模型,以便稍後預測看不見的患者的資料。特别是在使用多組學模式的癌症患者生存分型中,這種步驟順序變得很流行 [25–31, 34].

對于同樣的臨床任務,研究人員已經調整了類似的工作流程,但應用去噪AE(DAE)[91]來代替[35, 36]。通過向輸入x添加噪聲 而不是重建損失中的x(等式1),DAE必須學習重建,同時去除噪聲以近似未被破壞的向量x。這使得AE具有過度完整性,并且具有大量參數的編碼器和解碼器。對于AE來說,超完備性可能是可取的,因為它具有對噪聲的魯棒性等特性。

同樣,不同形式的 AE 已被用于早期融合生物醫學資料。伊斯蘭教等[ 38 ] 和 Rakshit等人[ 39 ] 使用堆疊 AE (SAE) 來融合多組學資料,以對乳腺癌的分子亞型進行分類。在 SAE 中,幾個 AE 被堆疊并順序訓練以重建前面編碼器的輸出。然後可以針對分類任務對該架構進行微調。在 [ 38 ] 的情況下,所提出的方法執行類似于中間融合方法。米奧托等人[ 37] 将堆疊 DAE 應用于多模态電子健康記錄 (EHR) 資料,有效地代表低維空間中的患者,進而實作多種臨床預測模組化,例如疾病的發作。

正如 Jaroszewicz等人所展示的,早期 AE 融合也可用于初始化另一個神經網絡的第一層。[ 32 ] 關于染色質峰的精細定位。使用有用的資料聯合潛在表示進行初始化可以顯着增強訓練過程。可以進一步調整聯合表示層,進而能夠學習更多與任務相關的聯合表示。

3.2.2 Variational AEs 變分AEs

如前所述,假設高維資料x位于一個低維流形上。這個假設可以表示為一個有向機率模型,其中資料點x是由低維變量z的随機過程産生的(見圖3c)。假設z是由高斯分布 p θ ∗ ( z ) p_{θ^∗}(z) pθ∗​(z)産生的,其中 θ ∗ θ^∗ θ∗是真正的生成參數。是以, p θ ∗ ( z ) p θ ∗ ( x ∣ z ) p_{θ^∗}(z)p_{θ^∗}(x|z) pθ∗​(z)pθ∗​(x∣z)是看到資料x的可能性。盡管z是感興趣的現象的更直接的表示,但在嵌入空間中直接表示資料是很有用的。然而,z和 θ ∗ θ^∗ θ∗是不是直接可觀察的,在大多數情況下估計真實的後驗 p θ ∗ ( z ∣ x ) p_{θ^∗}(z|x) pθ∗​(z∣x)是難以做到的。

變量AE(VAE)[92]能夠通過學習所謂的識别模型 q ϕ ( z ∣ x ) q_ϕ(z|x) qϕ​(z∣x)來近似真實的後驗,反過來可以從中學習 p θ ( x ∣ z ) p_θ(x|z) pθ​(x∣z)。在這個例子中,解碼器從 N ( μ ( i ) , σ ( i ) I ) N(μ(i),σ(i)I) N(μ(i),σ(i)I)中取樣 z ( i ) z(i) z(i),其中I是身份矩陣,并學習 p θ ( x ( i ) ∣ z ( i ) ) p_θ(x^{(i)}|z^{(i)}) pθ​(x(i)∣z(i))來重建輸入 x ( i ) x^{(i)} x(i)。這種方法的一個預期優勢是,由于它的生成性,潛在空間z更加平滑,進而對未見過的資料有更好的概括性。此外,對潛在空間分布的先驗信念的引入使得對輸入資料的模組化更加靈活。這些優點在從多模态資料中學習聯合潛勢表征時也很有用,因為在多模态情況下可以假設所描述的相同過程。

Simidjievski等人[ 41 ] 系統地研究了用于融合乳腺癌資料的 VAE。在比較不同的 VAE 融合政策時,早期融合 VAE 的性能與更複雜的 VAE 架構相當。此外,作者發現正則化方法及其權重的選擇對模型的性能有很大影響。羅南等人[ 40 ] 通過應用基于多組學資料的堆疊 VAE,對結直腸癌進行了生存亞型分類,并将細胞系與亞組相比對。阿爾巴拉迪等人[ 42] 用卷積層替換 VAE 的完全連接配接層,以學習輸入到分類器的嵌入以進行泛癌轉移預測。是以,他們表明可以利用多組學資料中的局部模式。

3.3 Discussion of early fusion strategies

大多數早期融合模型與它們的單峰版本沒有太大差別。它們實施起來相對簡單,因為無需對個體模态進行模組化,這也許可以解釋它們在生物醫學文獻中的受歡迎程度。這裡回顧的早期非線性融合方法的應用表明,這些方法在預測任務上可以優于淺層方法(例如 [ 35、36 ] )。這表明 DL 方法是傳統方法的可行替代方法,即使樣本量相對較小,因為在上面審查的應用程式中隻有 96 名患者 [ 28 ]。此外,早期融合政策往往優于單峰方法(例如 [ 39]). 然而,不同的模态可以在不同程度上添加資訊(例如 [ 36 , 44 ])。

盡管它們有突出的用途,但早期融合政策也有缺點。通過直接對聯合表示進行模組化,很難找到每種模态的有用邊緣表示。模态的相關特征可能隻會在更高的抽象層次上變得明顯。在聯合表示中發現此類特征可能更難實作。此外,模态之間可以有不同的關系。是以,逐漸融合模态而不是全部融合在一層中可能是有益的 [ 2 ]。最後,早期融合往往僅在模态相當同質時應用,例如不同的“組學(omics)”模态。如果模态顯示出截然不同的分布,例如圖像和分子模态,則早期融合政策不太可能表現良好。

在早期的融合政策中,基于AE的融合在生物醫學應用中被頻繁使用(見表2)。這些方法的降維能力可以解釋它們主要用于高維多組學資料。這些方法的一個局限性是不針對任務的學習。雖然學習 x c o n c a t x_{concat} xconcat​的基本因素對預測反應y很有用[13],但AE方法是為了重建輸入資料而學習,不一定是為了提取目标的相關因素。是以,學習到的聯合潛在表征不能保證對應用的最終目的是最佳的,如果存在标簽,進一步的特定目标學習可能是有益的。

佛朗哥等人[ 33 ] 将幾種 AE 類型與多組學資料進行了癌症生存亞型早期融合的比較。盡管正常 AE 和 VAE 架構似乎優于其他 AE,但不同資料集上性能之間的巨大差異表明架構選擇的重要性。盡管存在上述缺點,一些評論的論文表明,早期融合 AE 可以與中間政策 [38、41] 相提并論,盡管生物醫學領域 [ 28 ] 和 [ 93 ] 之外的其他結構化研究表明中間融合優于早期融合政策。

4. Intermediate fusion

盡管早期融合不知道特征源自什麼模态,但中間融合政策利用了這種先驗知識。學習每種模态的邊緣表示以發現模态内的相關性,然後再使用它們來學習聯合表示或直接進行預測(參見圖 4a)。在下文中,我們将讨論同質和異質中間融合及其子類别。

4.1 Homogeneous network design 同構網絡設計

[醫學多模态融合系列 -4] Multimodal deep learning for biomedical data fusion: a review0. Abstract1. Introduction2. Fusion strategies: an overview3. Early fusion4. Intermediate fusion5. Late fusion6. Discussion and conclusion

Fig4: 中間融合政策。( a ) 藍色共享層表示聯合中間融合。在邊緣表示之後,學習聯合表示(頂部)。在邊緣中間融合中,邊緣表示直接輸入到決策函數(底部)。( b ) 邊際 AE,其中邊際表示被連接配接起來并輸入到決策函數中。( c ) 聯合 AE,其中在标記為藍色的共享層中學習聯合表示。

4.1.1 Marginal homogeneous fusion 邊緣同質融合

通過連接配接這些邊緣表示,可以将具有相同類型層的分支學習到的邊緣特征直接用作決策函數的輸入。雖然這種方法能夠有效地捕獲模态内的相關性,但跨模态關系的模組化效率較低,進而降低了資料融合的好處。但是,模型的複雜性降低了,進而降低了過度拟合的風險。是以,如果模式在很大程度上獨立地影響結果,則選擇僅學習邊際表征可能是有益的。這強調了多模式資料的互補性和備援性,而不是合作方面。

為了預測癌症患者的存活率,Huang等人[ 43 ] 通過兩個局部完全連接配接的分支融合 mRNA 和 miRNA 特征基因矩陣。然後将邊緣表示和額外的臨床和人口統計資料輸入到 Cox 比例風險回歸模型中。沒有進行聯合學習,因為作者明确假設不同的模式獨立影響危險函數。

為了将模态與順序資料融合,每個分支中的循環層都提供了良好的性能,因為可以有效地模組化時間依賴性并且輸入序列可以是可變長度的,這在生物醫學資料中通常是這種情況。循環層能夠輸出編碼輸入序列的邊緣表示。李等人[ 44 ] 将門控循環單元 (GRU) 網絡應用于阿爾茨海默病 (AD) 患者的多模式資料。由 GRU 層組成的每個分支首先分别在分類任務上進行訓練。在第二步中,每個分支的邊際表示被連接配接起來,邏輯回歸用于做出最終決定。

除了作為早期融合政策受到歡迎外,AE還可以在中間融合中找到應用。獨立的AE可以單模态應用,産生一組編碼S={z1, z2,…, zm},其中m是模态的數量,zi是由相應AE編碼的第i個模态的潛在表示。S中的編碼可以串聯成向量 z c o n c a t = z 1 ∥ z 2 ∥ . . . ∥ z m z_{concat}=z1∥z2∥...∥zm zconcat​=z1∥z2∥...∥zm(見圖4b),并作為進一步模組化的輸入,如聚類後用分類器進行癌症分型[45-47],或直接作為多類分類或生存分析的分類器的輸入[48]。原則上,zconcat可以輸入到DNN,DNN學習聯合表示,使其成為聯合融合方法。

4.1.2 Joint homogeneous fusion 聯合同質融合

在連接配接邊緣表示之後,可以通過單峰分支之後的多個層來學習聯合表示。這種聯合表示随後可用于做出決策,并可對跨模态互動進行模組化(參見圖 4a)。

Sharifi-Noghabi等人[ 50 ] 将單獨的完全連接配接的分支應用于多組學資料,然後是用于藥物反應預測的多層分類網絡。是以,該分類器學習了輸入模态的聯合表示。林等人[ 51 ]采用這種方法預測乳腺癌亞型。

為了保留白間資訊,如果可以預期模态内的這種依賴性,則可以在每個分支中應用卷積層。與單峰模型類似,可以在每個分支中使用附加層(例如最大池化層)來降低次元并避免過度拟合。至關重要的是,每個分支的特征圖可以連接配接到單獨的密集層,然後連接配接起來。從這個向量中,可以在後續層中學習聯合表示。此類架構可應用于多種模式,例如藥物的化學結構和基因組資料 [ 21 ] 或多組學模式 [ 38 ]。

另外,單模态分支可以由深度相信網絡(DBNs)組成。在多模态DBN中,每一對相鄰的層都是受限的博爾茲曼機(RBM),它們被訓練為以無監督的方式對兩層的聯合分布p(xl,xl+1)模組化。與SAE類似,在逐層訓練過程中,嵌入或隐藏的表示成為後續RBM的可見輸入。是以,DBN可以被認為是一個堆疊的RBM。輸入資料的分層表示被學習,可用于資料的聚類。另外,這些表征可以作為DNN的一個有用的、計算效率高的初始化,用更昂貴的監督算法(如反向傳播)對其進行微調,以學習p(y|x)[94]。

DBN 已廣泛用于融合生物醫學模式,用于藥物再利用 [ 52 ]、癌症患者聚類 [ 53 ] 和預測疾病基因對 [ 54 ]。蘇克等人[ 55 ] 應用多模态深度玻爾茲曼機 (DBM) [ 95 ] 從磁共振圖像 (MRI) 和正電子發射斷層掃描 (PET) 掃描預測 AD。與 DBN 類似,DBM 由堆疊的 RBM 組成,但除了自下而上的學習步驟外,它們還添加了自上而下的回報,進而能夠學習更好的表示。

為了利用模态特定和跨模态相關性,可以在單個 AE 中學習邊緣和聯合表示(參見圖 4c)。最初,AE 由連接配接到不同模态的分支組成。進一步進入編碼器,通過将每個分支連接配接到z的所有神經元,在這些分支中學習的邊緣表示被融合到嵌入層中,如 [ 28 ] 中所做的那樣。或者,它們可以融合在一個隐藏層中,進而在最終編碼之前實作潛在的進一步學習 [ 57-61 ]。然後嵌入z可用于不同的預測任務。

這種聯合表示也可以通過 VAE 學習。Simidjievski等人[ 41 ] 提出并比較了使用 VAE 融合乳腺癌多組學和臨床資料的聯合 AE 融合的不同版本。希拉等人。[ 56 ] 還發現聯合多模态 VAE 對于融合多組學資料很有用,并支援 [ 41 ] 的發現,即最大平均差異作為正則化項優于 Kullback-Leibler 散度。

與 VAE 相關,Lee 和 van der Schaar [ 63 ] 通過應用資訊瓶頸原理融合了多組學資料。盡管 VAE 可以有效地找到輸入的潛在表示,但它們可能不是預測任務的最佳選擇。變分資訊瓶頸方法 [ 96 ] 找到一種聯合表示,該表示保留來自輸入x的與預測目标y相關的資訊,同時最大限度地壓縮x 。目标函數鼓勵算法找到有用的邊緣和聯合表示。同樣,張等人。[ 62] 提出了一種端到端的 VAE 架構,該架構學習用于泛癌分類的 DNA 甲基化和基因表達資料的特定任務聯合表示。該架構始終優于 VAE 和支援向量機的組合。

4.2 Heterogeneous network design 異構網絡設計

4.2.1 Marginal heterogeneous fusion

能夠對具有不同分支的模态進行模組化的主要優點是能夠将異構資料轉換為更好地表示更進階别特征的向量。是以,這些新的特征向量可以在資料類型、不同模态之間的次元和規模不平衡方面“公平競争”,進而實作比較。與同質中間融合政策一樣,這種邊緣表示可以簡單地連接配接起來并輸入到分類器中。

徐等人[ 68 ] 将計算機斷層掃描 (CT) 掃描的實驗室測試、臨床資料和邊緣表示相結合,以預測 COVID-19 感染。張等人[ 64 ] 提出了一種基于 CNN 和 RNN 的融合模型,該模型将時間信号、順序臨床記錄以及靜态人口統計和入院資料作為不同分支的輸入。它将前兩種模式嵌入到潛在特征空間中,并将它們與編碼的靜态資訊連接配接起來。是以,建立了輸入到分類器的患者表示。特征選擇也可以用于連接配接的邊緣表示,選擇對目标變量影響最大的潛在特征,如 [ 65 ] 中所做的那樣] 預測透明細胞腎細胞癌患者的預後。郝等人[ 67 ] 缺乏額外的隐藏層與臨床資料的低次元,與高維基因組資料融合。然而,作者假設如果有更多的臨床特征可用,可能需要額外的關節隐藏層。

通常,在邊緣異質融合中,通常對于模态的一個子集,找到邊緣表示,然後将其與其他模态的原始資料連接配接起來。在這些情況下,非編碼模态是低維的,不會遭受維數災難。是以,它們可能不需要通過分離的潛在因素來表示。

4.2.2 Joint heterogeneous fusion

通常,可以合理地假設不同的模态不會獨立影響目标變量,而是存在提供資訊的跨模态互相作用。在聯合異構中間融合中,這種關系是通過從邊緣表示中學習特征的互動來模組化的。這些互動可以通過首先連接配接邊緣表示并将該向量饋送到特定任務輸出層之前的完全連接配接層來學習。例如,MRI 和臨床資料可以融合用于 AD 預測 [ 72 ],或者 MRI、臨床和基因組模式可以融合用于 AD 分期檢測 [ 69 ]. 此外,可以融合多種成像模式和臨床資料的潛在表示,以評估肝細胞癌肝移植的風險 [ 71 ]。

基于這種聯合異構中間融合的通用方法,其他研究人員增加了架構改進以應對特定挑戰。在實踐中,并非為每個患者收集所有模态通常是一個問題。如果缺少整個模式,插補可能會變得具有挑戰性,并且僅對完整樣本進行訓練會限制訓練集的大小。通等人[ 70] 提出了一個多任務網絡,它可以通過具有單峰輸入分支和特定于任務的輸出分支來有效地從具有缺失模态的多峰資料中學習。每個任務都反映了一種模态或模态組合的可用性。是以,在訓練期間僅更新特定于任務的分支和相應的單峰分支的權重。如 [ 63 ]所示,在同質中間融合中也可以實作對缺失模态的魯棒性。

為了應對使 DL 架構在多模式環境中更具可解釋性的挑戰,人們提出了不同的方法。陳等人。[ 79 ] 通過将 Grad-CAM [ 97 ] 應用于 WSI 和內建梯度 [ 98 ] 使用卷積、圖卷積 [ 14 ] 和完全連接配接的分支的細胞圖和基因組模态,實作了模态特定的可解釋性。在另一份出版物中,Chen等人[ 80 ] 将基于注意力和梯度的可解釋性應用于 WSI 和分子模式。此外,對預測性能的貢獻歸因于不同的模式。康等人[ 73] 使用多組學資料的注意機制 [ 99 ] 來解釋基因表達的預測。一般來說,這些基于梯度和注意力的方法表明,異構中間融合不會阻礙允許合理生物學解釋的模型。

中間融合政策的優勢在于,可以通過強制邊緣表示具有相似的大小來減輕模态之間的次元不平衡。然而,如果不平衡非常大,過多地降低較大模态的次元可能會導緻資訊的大量丢失。嚴等[ 76 ] 融合了高維 WSI 和 29 個臨床變量。為了獲得更高的預測性能,臨床變量被複制了 20 倍。然而,Mobadersanya等人。[ 77]表明,如果使用先驗知識選擇低維模态的輸入特征,不平衡不一定會導緻性能不佳。作者融合了從 WSIs 中學到的組織學特征和隻有兩個基因組特征,即異檸檬酸脫氫酶突變狀态和 1p/19q 共缺失,以預測神經膠質瘤患者的存活率,并顯示出統計上顯着的性能提高。同樣,盡管采用“邊際”異質融合政策,Lu等人[ 66] 表明,将患者的生物學性别作為協變量與從 WSI 中學到的特征聯系起來,可以提高預測未知原發癌症原發部位的性能。這表明通過仔細選擇較小模态的變量可以有效地減輕不平衡。

跨模态互動的無監督學習有助于克服小樣本量的限制。Cheerla 和 Gevaert [ 78 ] 提出了一種結合基因組、臨床和 WSI 的無監督融合架構,用于癌症預後預測。損失函數的制定使得同一患者的不同模态的邊際表征相似,而不同患者的邊緣表征不同。是以,可以以無監督的方式學習每種模态的協調表示 [ 11 ],進而導緻模态之間的模式編碼。這種損失與 Cox 損失函數相結合,可以實作目标特定的特征學習。随後,從協調表示中學習了聯合表示。

除了從邊緣表示的級聯向量中學習聯合表示外,每個分支的特征向量也可以按元素聚合。這更明确地模拟了特征互動。例如,特征表示向量可以堆疊為矩陣中的列,并且可以取行方向的最大值、總和或乘積,進而得到與每個分支的邊緣表示長度相同的聯合向量。淡水河谷席爾瓦等人。[ 74 ] 比較了這些方法,盡管他們沒有發現預測長期癌症存活率的性能有很大差異。陳等人。[ 79] 通過對 WSI、細胞互相作用和基因組資料進行模組化來預測患者的存活率和幾種患者分類。通過采用 Kronecker 産品融合邊際表示。生成的三維張量明确編碼了特征向量的單峰、雙峰和三峰互相作用。張量被進一步輸入到一個完全連接配接的網絡,該網絡連接配接到特定于目标的決策函數。作者還成功地将這種融合政策擴充到泛癌生存預測 [ 80 ]。除了逐元素聚合之外,還可以應用基于注意力的融合方法,以便根據重要性對不同的潛在特征進行權重[ 74、79、81 ]。

4.3 Discussion on intermediate fusion

DL 方法特别适合中間融合。分層邊緣和聯合表示可以在适當的抽象級别進行融合。是以,可以捕獲融合政策中模式之間的潛在生物學關系。此外,從邊緣表示中學習聯合表示似乎是首選方法,正如更頻繁地應用聯合融合政策所表明的那樣(見表 2)。這與模式獨立影響目标的概念相沖突,并支援多模式資料中互補和合作資訊的想法。

中間融合方法還為 DL 在生物醫學領域的其他普遍挑戰提供了解決方案。例如,通過具有單獨的分支,可以根據每種模态選擇增強可解釋性的方法。此外,如上所述,處理特征不平衡、缺失模态和協調表示學習是中間融合方法的優勢。生物醫學應用特别感興趣的是中間融合的能力,它通過将不同的網絡和網絡類型應用于每種模态來縮小模态之間的異質性差距,進而實作成像、分子和臨床模态的有效融合。這使 DL 方法更接近臨床診斷和預後。

盡管中間融合政策似乎比其他方法具有許多理論上的優勢,但很少研究或報告測試這些政策是否在給定問題上實作。如上所述,至少在某些任務上,早期融合可以執行類似于中間融合[ 38、41 ]。然而, [ 28 ] 表明中間 AE 明顯優于其早期融合對應物。應用頻率似乎在早期和中期融合之間保持平衡,盡管選擇可能不僅受到政策性能的影響,而且還受到易用性的影響。

5. Late fusion

在後期融合中,為每種模式訓練單獨的模型。這些子模型可以被優化,以便它們學習p(y|xi)。其中xi 是來自第i個模态的資料。因為每個模态的輸入提供了不同的資訊,而且子模型的構造也不同,是以每個模型所犯的錯誤并不是完全相關的[2]。彙總預測機率的不同政策,進而利用每個模态的互補資訊,對于異質模态的融合特别有希望。

聚合來自單獨子模型的決策的最簡單方法是取各個輸出的平均值。對于分類任務,這可能是對每個類别的 softmax 函數的機率進行平均。這種方法假設每個子模型的貢獻相同,因為沒有對輸出進行權重。鄧等[ 82 ] 通過訓練子模型融合不同類型的藥物特征,然後通過平均 65 個類别的機率來彙總它們的預測。黃等人[ 83] 發現,在利用 CT 掃描和 EHR 資料預測肺栓塞檢測方面,以正則化 DNN 作為子模型的基于平均的晚期融合優于早期、中期和其他晚期融合政策。索托等人[ 84 ]表明,具有平均結果的後期融合可以優于其他後期和中間融合政策。

為了避免假設所有子模型都具有相同的相關資訊來預測目标,可以采用其他聚合方法。質疑這一假設是相關的,因為許多方法表明不同模式對預測性能的貢獻不相等(例如參見 [ ​​36、42 ] )。王等人[ 85 ]通過其不确定性對每個子模型的預測機率進行權重。是以,更容易出錯的模型對最終決策的貢獻較小。這種方法可以減少最終預測中的不确定性。劉等人[ 86 ] 和 Sun等人[ 87] 通過它們的子模型學習預測的權重作為驗證集上的超參數。

或者,元學習方法可以學習不同子模型的預測之間的複雜關系。在這種方法中,子模型的輸出被輸入到另一個分類器,該分類器學習預測之間的互相作用,以便做出更好的最終預測。盡管仍然無法學習不同模态特征之間的相關性,但可以有效地對跨模态(非線性)線性互動進行模組化。黃等人[ 83 ] 應用 FCNN 來融合子模型預測,而 Reda等人[ 88 ]使用連接配接到分類器的稀疏 SAE 進行最終預測。

5.1 Discussion of late fusion

與早期融合相比,晚期融合可以對異構模态進行模組化,甚至可以結合 DL 和淺層 ML 方法,如 Reda等人所做的那樣。[ 88 ]。與中間融合類似,輸入次元數量的不平衡不會影響最終預測,是以高維模态會“淹沒”低維模态。後期融合政策顯然具有無法學習不同模态特征之間互動的缺點。當模式相關性較低時,這些政策可能是有利的,是以這個缺點不會生效。

6. Discussion and conclusion

總之,回顧目前關于基于 DL 的融合政策的文獻表明,多模态方法通常優于單模态方法。人們還普遍觀察到,多模态 DL 方法明顯優于淺層 ML 方法。雖然文獻很可能傾向于報告積極的結果,但很明顯,通過基于 DL 的融合獲得的預期收益經常發生。

我們已經概述了早期、中期和晚期融合及其子類别在哪些條件下可能分别發揮最佳作用。主要地,選擇取決于要分析的模式和研究人員做出或多或少的架構選擇的意願。然而,不同政策的性能仍然可能非常特定于問題和資料。需要更多的理論知識來進一步說明不同政策在什麼條件下表現出色。是以,建議通過實驗研究和比較不同的融合政策,并評估各自的優勢。

多模态 DL 方法面臨與 DL 在生物醫學領域普遍面臨的挑戰相同,包括資料量、品質、可解釋性和時間性,如 Miotto等人概述的那樣[ 100 ]。但是,必須通過融合政策來解決多模态特定的挑戰,例如整個模态的缺失。已經提出了不同的方法,例如多任務學習 [ 70 ]、生成模型 [ 63 ] 和多模态 dropout [ 78、101 ]. 為了變得更具臨床相關性,方法需要對不同模式的缺失模式具有魯棒性,并将對策納入學習中。此外,随着越來越多的異構資料可用,融合政策需要适應這些模式組合。如上所述,生物過程可以在不同層面上觀察到,多模式資料提供了訓練整體模型的機會,這些模型可以學習健康和疾病背後的複雜監管動态。異構中間融合和後期融合特别适合這一挑戰。

盡管這些挑戰正在得到解決,但我們還是想概述一些尚未探索的領域。Ramachandram 和 Taylor [ 2 ] 概述了基于深度學習的融合的優勢在于能夠根據模式的相似性逐漸融合模式。我們還沒有看到在目前的生物醫學文獻中對此進行了充分的探索。此外,逐漸融合可以由先前的生物學知識指導,例如 mRNA、miRNA 和蛋白質之間的已知關系。我們已經看到先驗生物學知識為架構決策提供資訊的應用,例如根據染色體位置 [ 62 ] 的單獨分支、訓練損失中的正則化項 [ 49 ] 或将路徑編碼到架構中 [ 19,67 ]。然而,據我們所知,通知模式的逐漸融合尚未得到全面調查。

生物醫學資料融合進一步探索的是如何自動找到最佳融合政策。由于設計融合架構所涉及的選擇,找到融合不同模态的最佳方式變得非常重要。從這裡審查的方法之間的比較可以看出,這種選擇可以是高度特定于問題的。為 DL 架構尋找最佳融合政策是一個活躍的研究領域 [ 2 ],并且有望顯着提高性能。徐等人[ 102] 已經應用搜尋算法來找到最佳融合政策,以及用于融合 EHR 資料的特定于模态的神經架構搜尋。除了這個提議的方法之外,我們發現這種政策沒有在生物醫學領域得到廣泛研究或應用,并且可能會導緻有趣的未來研究。

過度拟合訓練資料,是以泛化性差,是多模态模型的主要挑戰 [ 103 ]。特别是對于多模态生物醫學資料集,樣本量通常很小,因為生成它們的成本很高,而且生物材料的擷取通常是有限的。通常輸入變量的數量非常大,特别是如果包含多組學資料。另一方面,架構可以有很多參數,因為必須對多種模式進行模組化。這很容易導緻學習訓練資料中的無資訊模式。

遷移學習 (TL) 是将知識從一項任務遷移到相關任務,通常采用預訓練網絡權重的形式。使用 TL,可以顯着減少所需的樣本量 [ 104 ]。是以,應該進一步探索多模态生物醫學資料集的 TL。盡管我們看到一些 TL 內建在融合政策中(例如 [ 50 ]),但我們相信利用 TL 的多模态架構的大量公共單峰資料集是一條有前途的未來道路。

随着越來越多的臨床和實驗資料可用,多模式資料融合在生物醫學領域的重要性變得越來越明顯。DL 融合政策是研究人員和從業者從他們的資料中建構性能最佳模型的有前途的選擇。我們希望這篇綜述能激發對這些方法的進一步應用和研究。

Key Points:

  • 複雜的生物系統可以通過模态内和模态間的非線性函數進行有效模組化。
  • 多模态 DL 提供了有效且靈活的架構來融合不同抽象級别的同源和異源生物醫學資料。
  • 深度融合政策經常使用,并且經常優于淺層和單峰方法。
  • 由于 TL 和漸進融合等領域尚未得到充分研究,是以多模态 DL 在生物醫學領域的潛力仍未得到充分利用。

繼續閱讀