天天看點

【論文泛讀】Deep Multimodal Fusion by Channel Exchanging摘要介紹

論文題目:Deep Multimodal Fusion by Channel Exchanging

時間:2020

來源:NIPS

論文連結:點選跳轉

論文代碼:點選跳轉

目錄

  • ==摘要==
    • 研究目的
    • 解決方法
    • 實驗結果
  • ==介紹==

通過通道交換進行深度多模态融合

摘要

研究目的

通過使用多個資料源進行分類或回歸的深度多模态融合在各種應用中表現出優于單模态對應物的明顯優勢。然而,包括基于聚合和基于對齊的融合在内的目前方法在平衡模态間融合和模态内處理之間的權衡方面仍然不足,導緻性能提升的瓶頸。

解決方法

為此,本文提出了通道交換網絡(CEN),一種無參數的多模态融合架構,可在不同模态的子網絡之間動态交換通道。具體來說,通道交換過程是由單個通道重要性自我引導的,該重要性由訓練期間批量歸一化 (BN) 縮放因子的大小來衡量。這種交換過程的有效性也通過共享卷積過濾器同時跨模态保持單獨的 BN 層來保證,作為附加好處,這使得我們的多模态架構幾乎與單模态網絡一樣緊湊。

實驗結果

與目前最先進的方法相比,通過 RGB-D 資料和通過多域輸入進行圖像轉換的大量語義分割實驗驗證了我們的 CEN 的有效性。還進行了詳細的消融研究,這證明了我們提出的每個元件的優勢。

介紹

受到低成本傳感器日益普及的鼓舞,利用從不同來源/結構獲得的資料進行分類或回歸的多模态融合已成為機器學習的核心問題。加入深度學習的成功,多模态融合最近通過引入多模态的端到端神經內建被指定為深度多模态融合,并且它在語義分割中相對于單模态範式表現出了顯着的優勢,動作識别,視覺問答和許多其他。

已經針對深度多模态融合進行了各種工作 。關于它們如何融合的類型,現有方法通常分為基于聚合的融合、基于對齊的融合以及它們的混合。基于聚合的方法采用某種操作(例如平均、串聯和自注意力)将多模态子網絡組合成單個網絡。相反,基于對齊的融合采用調節損失來對齊所有子網絡的嵌入,同時保持每個子網絡的完全傳播。這兩種機制之間的差別如圖 1 所示。 多模态融合的另一種分類可以指定為早期、中期和晚期融合,具體取決于何時融合,這在早期的工作中已經讨論過以及深度學習文獻。

盡管取得了豐碩的進展,但如何整合跨模态的通用資訊,同時保留每個模态的特定模式仍然是一個巨大的挑戰。特别是,一旦聚合了多模态子網絡,基于聚合的融合就容易低估模内傳播。相反,基于對齊的融合保持了模内傳播,但由于僅通過訓練對齊損失來交換弱資訊,它總是提供無效的模間融合。為了在模态間融合和模态内處理之間取得平衡,目前的方法通常采用聚合和對齊融合的仔細分層組合來增強性能,但代價是額外的計算和工程開銷 [12, 29, 51]。

目前工作。我們提出了無參數、自适應和有效的通道交換網絡(CEN)。 CEN 不像以前那樣使用聚合或對齊,而是在子網絡之間動态交換信道以進行融合(見圖 1(c))。 CEN 的核心在于其受網絡修剪 [33, 49] 啟發的更小範數資訊假設。具體而言,我們利用Batch-Normalization(BN)[24]的縮放因子(即γ)作為每個對應通道的重要性度量,并将與每個模态接近零因子相關的通道替換為均值的其他方式。這種消息交換是無參數和自适應的,因為它是由訓練本身确定的縮放因子動态控制的。此外,我們隻允許在每個模态的特定通道範圍内進行定向通道交換,以保留模内處理。 § 3.3 中提供了更多細節。關于我們想法有效性的必要理論也在第 3.5 節中提出。

CEN 的另一個标志是所有子網的 BN 層以外的參數是互相共享的(第 3.4 節)。盡管之前在 [8, 48] 中研究了這個想法,但我們在這裡将其應用于 CEN 中的特定目的:通過使用私有 BN,如上所述,我們可以确定每個單獨模态的通道重要性;通過共享卷積濾波器,不同模态之間的相應通道嵌入了相同的映射,進而更有能力對模态通用統計量進行模組化。這種設計進一步将多模态架構壓縮到幾乎與單模态架構一樣小。

我們在兩項研究中評估我們的 CEN:通過 RGB-D 資料進行語義分割 [41, 43] 和通過多域輸入進行圖像翻譯 [50]。它表明,在公平的比較條件下,CEN 的性能明顯優于基于聚合或對齊的各種融合方法。特别是在語義分割方面,我們的 CEN 在兩個流行的基準測試中明顯優于最先進的方法。我們還進行消融研究以隔離每個提議元件的好處。 § 4 中提供了更多規範。

繼續閱讀