MICCAI2019 Oral
作者資訊
Chen Chen,
Biomedical Image Analysis Group, Imperial College London
貢獻:
- 設計了Shape MAE(Multi-View Auto Encoder)結構來學習多視角下心髒形狀的latent 表達
- 設計了分割網絡 Multi-View Unet,能夠結合MAE學習到的解剖形狀的先驗知識,來指導分割SA圖像
- 實驗和普通的2D ,3D網絡進行了比較,在分割精度以及對資料的使用效率上,proposed method 都更好
Method
受醫生從多視角觀察心髒形狀與功能的啟發,創新點主要在兩個結構:Shape MAE 和 Multi-View Unet。
Shape MAE(Shape-aware Multi-View Auto Encoder)
提供四個源視角 X i X_i Xi,two-chamber view (LA1),three-chamber view (LA2),four-chamber view (LA3),mid-ventricular view (Mid-V),網絡從其中一個視角學習低維表征後來重建所有分割map。分割map的視角 Y i Y_i Yi有6個,4個對應源視角,另外兩個為SA slices:apical 和 basal。損失函數如下
每項意義如下:
MV U-Net(Multi-View U-Net)
輸入任意SA slice,MV U-Net 先引入了 Shape MAE 學習到的多角度latent code,最後輸出相應分割map。
Experiment & Results
Cardiac multi-view image dataset,非公開資料集,共673例,比較了2D FCN,2D UNet, 3D UNet。本文提出的 MV UNet 本身算是 2D,但結果表明,它比3D UNet 效果好,而且參數量更少。
我的筆記
-
,brats17第二名的方案也用過,不過思路不同,那篇文章是從不同的方向提取patch來訓練不同的三個網絡(對應三個不同的視角)來做分割,最後把三個網絡的分割map平均作為最終結果。這篇文章思考的更深入,用encoder編碼不同view的特征後,再concat到分割網絡。Multi-View
- 這種
+多個encoder
+latent code
的結構,在這篇MICCAI2019 論文中也出現過,在這篇論文中有一些詳細讨論。在本文中使用的方式又有很大差別。因為它還計算了不對應的源view和segment view 的預測結果的loss。多個decoder
- 仔細看實驗資料,
;沒有做cross-validation的話,我可以懷疑有時候還不一定比2D Unet要好;另外訓練階段,提出的方法比2D UNet要更費時間;預測階段,MV UNet因為多了4個encoder來predict latent code,是以預測時間會比 2D unet多不少;最後,Shape MAE 為什麼要這樣設計loss,也沒有作出ablation 實驗說明。是以整體來看,這篇文章提供了一些fancy的新思路,但提出的模型沒有直接的使用價值。跟2D UNet比較,其實DICE提升很微弱