天天看點

[論文閱讀] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

論文位址:https://arxiv.org/abs/2102.08005

發表于:MICCAI’21

Abstract

醫學圖像分割,這一衆多臨床需求的先決條件–已經被卷積神經網絡(CNN)的最新進展大大促進了。然而,它在模組化明确的長距離關系方面表現出普遍的局限性,而現有的解決方法,訴諸于建立更深的編碼器和積極的下采樣操作,導緻了備援的深度網絡和局部細節的丢失。是以,分割任務等待着一個更好的解決方案,以提高全局上下文模組化的效率,同時保持對低層次細節的有力把握。在本文中,我們提出了一個新的并行分支架構TransFuse,以解決這一挑戰。TransFuse将Transformer和CNN以并行的方式結合在一起,全局依賴性和低層空間細節都能以更淺顯的方式被有效捕捉。此外,還建立了一種新的融合技術–BiFusion子產品,以有效地融合來自兩個分支的多層次特征。廣泛的實驗表明,TransFuse在二維和三維醫學圖像集上取得了SOTA,包括息肉、皮膚病變、髋關節和前列腺的分割,參數明顯減少,推理速度明顯提高。

I. Motivation

與其餘同時使用CNN與Transformer的工作類似,本文的出發點也是去結合CNN與Transformer各自的優勢。

II. Network Architecture

[論文閱讀] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

我們來看這張圖。右下角綠色框住的就是CNN編碼分支,将輸入圖像送入一個卷積網絡,得到1/4,1/8,1/16尺度下的各級特征;而左邊橘色框住的就是Transformer編碼分支,将輸入圖像送入一個Transformer,同樣能得到1/4,1/8,1/16尺度下的各級特征。然後,将CNN與Transformer對應的特征送入BiFusion子產品中進行融合處理,最終逐級送入decoder進行解碼。

從這個角度看,本文所"提出的"子產品就隻有BiFusion這一個,是以後文将分析該子產品如何融合Transformer與CNN特征。

III. BiFusion Module

[論文閱讀] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

其中 g i g^{i} gi表示卷積層的特征, t i t^{i} ti表示transformer提取的特征。這裡做了一個有意思的區分,由于卷積特征相對而言處理全局上下文能力較弱,容易包含不相關區域,是以對卷積特征進行了空間注意力處理;而transformer特征相對而言容易缺乏局部細節,是以采用了通道注意力進行處理。而至于兩者的互動,是通過将兩個特征圖直接相乘得到的(而不是進行channel-wise concat或者element-wise multiply)。