MICCAI2019 Oral
作者信息
Chen Chen,
Biomedical Image Analysis Group, Imperial College London
贡献:
- 设计了Shape MAE(Multi-View Auto Encoder)结构来学习多视角下心脏形状的latent 表达
- 设计了分割网络 Multi-View Unet,能够结合MAE学习到的解剖形状的先验知识,来指导分割SA图像
- 实验和普通的2D ,3D网络进行了比较,在分割精度以及对数据的使用效率上,proposed method 都更好
Method
受医生从多视角观察心脏形状与功能的启发,创新点主要在两个结构:Shape MAE 和 Multi-View Unet。
Shape MAE(Shape-aware Multi-View Auto Encoder)
提供四个源视角 X i X_i Xi,two-chamber view (LA1),three-chamber view (LA2),four-chamber view (LA3),mid-ventricular view (Mid-V),网络从其中一个视角学习低维表征后来重建所有分割map。分割map的视角 Y i Y_i Yi有6个,4个对应源视角,另外两个为SA slices:apical 和 basal。损失函数如下
每项意义如下:
MV U-Net(Multi-View U-Net)
输入任意SA slice,MV U-Net 先引入了 Shape MAE 学习到的多角度latent code,最后输出相应分割map。
Experiment & Results
Cardiac multi-view image dataset,非公开数据集,共673例,比较了2D FCN,2D UNet, 3D UNet。本文提出的 MV UNet 本身算是 2D,但结果表明,它比3D UNet 效果好,而且参数量更少。
我的笔记
-
,brats17第二名的方案也用过,不过思路不同,那篇文章是从不同的方向提取patch来训练不同的三个网络(对应三个不同的视角)来做分割,最后把三个网络的分割map平均作为最终结果。这篇文章思考的更深入,用encoder编码不同view的特征后,再concat到分割网络。Multi-View
- 这种
+多个encoder
+latent code
的结构,在这篇MICCAI2019 论文中也出现过,在这篇论文中有一些详细讨论。在本文中使用的方式又有很大区别。因为它还计算了不对应的源view和segment view 的预测结果的loss。多个decoder
- 仔细看实验数据,
;没有做cross-validation的话,我可以怀疑有时候还不一定比2D Unet要好;另外训练阶段,提出的方法比2D UNet要更费时间;预测阶段,MV UNet因为多了4个encoder来predict latent code,所以预测时间会比 2D unet多不少;最后,Shape MAE 为什么要这样设计loss,也没有作出ablation 实验说明。所以整体来看,这篇文章提供了一些fancy的新思路,但提出的模型没有直接的使用价值。跟2D UNet比较,其实DICE提升很微弱