【配准】弱监督(Weakly-Supervised)系列配准论文阅读

弱监督系列论文汇总表

序号	发表情况	要点
1	ISBI2018	弱监督配准框架
2	MIA2018	多尺度Dice，新的网络，大量的实验
3	TMI2018	GAN来代替形变场正则项

1、Label-Driven Weakly-Supervised Learning For

Multimodal Deformable Image Registration

问题

多模态医学影像配准当前的主要方法及面临的问题。

基于灰度相似性测度的方法。传统配准方法经常以图像间的相似性测度作为优化目标，当前的深度学习非监督配准方法也主要是以相似性测度作为目标函数。但是多模态的影像很难找到鲁棒的相似性测度。
基于特征的方法。特征的设计和提取麻烦，而且人工设计的特征对数据敏感。
深度学习监督学习。要事先得到形变场作为金标准。

方法及创新点

作者提出了标签驱动的弱监督配准框架来进行多模态医学影像配准，来解决上述的问题。论文涉及的具体应用是3D的MR图像和超声图像配准。

标签驱动弱监督的配准框架

【配准】弱监督(Weakly-Supervised)系列配准论文阅读
图1 标签驱动弱监督的配准框架

将待配准的图像对concat之后输入到神经网络中，网络直接回归出形变场，然后浮动图像的标签根据形变场扭曲得到扭曲后的标签，网络训练时的目标函数就是扭曲标签与固定图像标签的相似性测度还有形变场的正则项。由于标签并没有输入到网络中而是直接输入到重采样器去产生形变，所以测试的时候不需要标签信息（图中红色虚线部分只有训练过程才有）。跟常见的非监督配准方法相比，这里主要是用标签的相似性测度来代替了图像之间的相似性测度，因为多模态图像之间的相似性测度不好设计，但是标签之间的相似性测度就好设计一些。另外标签信息参与训练也相当于给网络提供了辅助的监督信息（个人理解）。

标签的选取和处理

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图2 预处理后的标签

标签可以是图像上任意独特的结构（ad hoc structure），包括器官，血管，关键点，导管等等，每个结构都可做成一张二进制掩膜作为标签。因此训练时，一对待配准的图像有多对标签，采用minibatch梯度下降算法训练网络，每次迭代随机采用一对标签参与训练。

标签的使用权重

同时，为了减轻标签的不确定性带来的影响，对那些更加可靠的标签采样次数更多，这个通过在训练前对高置信度的标签做重采样实现。

标签的预处理

比较直接的一个想法是计算扭曲后的mask与固定图像的mask之前的二进制交叉熵作为目标函数，也就是把任务视作一个像素级别的二分类问题，判断两张mask相同位置的像素是否对应（都是前景1或者都是背景0）。但是这样做存在的一个显著问题是权重问题（weighting）。

二进制交叉熵（BCE）是将一张图上的所有像素同等对待的，也就是说，图像每个像素对目标函数的影响（权重）是一样的，这对于分割任务来说没有问题，但对于配准任务这就不太合理了。比如，对于配准任务，边缘的像素相比非边缘的应该更重要些，前景相比背景应该更重要些，面积更小的那些解剖区域相比大面积的应该更重要些。

为了解决这个问题，作者在该篇论文中提到了一种标签平滑的方法作为标签的预处理方法。在之后MIA的论文中又提出了多尺度Dice来解决这一问题。此处就跳过标签平滑的预处理方法了，把重心放在多尺度Dice上面。

网络架构

理论上，网络直接预测形变场是能够将局部和全局的形变都拟合的。但是实践发现，对于标签没有覆盖的区域，这样产生的配准误差非常大，所以作者采用了一个全局网络来学习全局形变，然后通过局部网络得到局部的形变，最终的形变场是全局形变和局部形变的叠加。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图2 预处理后的标签

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

局部网络采用的是作者之前从超声图像中分割前列腺的网络，一个Unet型的网络，主要改动主要在最后一层，加了个卷积和偏置，没有BN和激活函数，使得最后一层可以随机初始化为均值为0偏移量很小的值。全局网络采用的局部网络的下采样部分，更改了输入通道数，最后一层添加了全连接层来回归出仿射矩阵的12个参数。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图4 网络架构图

网络训练时，先对全局网络进行了预训练，然后再一起训练。

顺带一提，在2018MIA的论文中，已经取消了全局网络，只用一个网络直接输出形变场。

评价指标和结果

关键点的平均距离：4.2mm

前列腺分割标签的Dice:0.88.

2、Weakly-supervised convolutional neural networks for multimodal image registration

这篇论文的工作可以看做前篇论文工作的改进。我们来看看这篇论文的主要贡献：

弱监督图像配准框架详细的方法描述
多尺度Dice的提出
舍弃了之前全局网络的新网络
大量的实验及分析

弱监督的配准框架

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图5 弱监督框架示意图

上篇论文已经介绍过了这个框架，这里主要是对这个框架更详细的描述。

来看下网络的优化目标吧。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

方括号里面的第一项是标签之间的相似性测度\，第二项是形变场的正则项。其中形变场的正则项有很多选择，比如bending energy,位移场梯度的L1或L2范数。

多尺度Dice

上面也提到过，直接采用二进制掩膜作为标签计算二进制交叉熵会存在权重问题，同理，计算Dice或者Jaccard也会存在相同的问题。上篇论文的解决方法是对label做预处理，这篇论文是改变相似性测度——使用multiscal Dice。

先看Dice的公式：

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

可以看成2倍的交并比。

再来看多尺度Dice的公式：

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

从公式可以看到，这里实际上也是对标签做了预处理（高斯滤波），然后再计算Dice，与上篇论文不同的是它将预处理嵌入到了loss中，预处理操作更简单高效。这里的多尺度指的是选用了多个不同标准差的高斯滤波器对标签进行滤波，生成多张标签，最后计算它们Dice的平均值。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图6 不同标准差（从左到右0,2,8,32）的高斯滤波器滤波后的标签

作者在文中还列举了在设计标签的相似性测度要考虑的一些要素，这里我没有看太懂，姑且复制粘贴下来供以后查阅。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

网络架构

这篇论文抛弃了之前的全局网络部分，提出了一个新的网络架构。它在不同分辨率的特征层上预测形变场，然后对这些形变场求和。作者认为在低层上预测的形变场能够提供全局信息，作用相当于前文的全局网络，但比单独的全局网络占用的内存小很多。

来看看具体的网络架构吧。（可与图4的网络比较）

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

图7 配准网络

仔细比较图7和图4可以发现主体的网络（Unet部分）还是一样的，仍然是之前前列腺的分割网络。主要的区别在于下面部分——深监督的引入。网络从s0~s4五个不同尺寸的特征图上引出五个节点，各自经过卷积、偏置还有上采样操作得到尺寸为原图s0通道数为3的位移场求和子，然后将这五个求和子求和得到最终的形变场。这样子求得的形变场就融合了不同层次的信息，从低层的全局信息到高层的局部信息。

实验

评价指标仍然是前作的两个。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

先看目标函数上面做的消融实验。一个是将多尺度Dice换成了多尺度二进制交叉熵，在TRE指标上变差过了很多，估计是网络对大体积的分割信息过拟合。另一个是改变了正则项，发现对结果的影响也比较大。

第四行的实验是在训练网络之间就用高斯滤波器对标签做预处理，计算loss时直接计算Dice。这样训练可能能快一些，同时对配准精度影响不大。

最后四行的实验是对网络结构的比较。比较第一行和第五行的结果可以看到深监督机制的确能带来指标上的提升，但并不显著。其中第五行的网络差不多就是之前论文中的局部网络，但是比较第5行的指标和第8行的指标发现第五行的指标竟然更低？比较第一、八行数据可以看到网络结构的改变的确带来了精度的一定提升，但可能贡献更多的还在于效率上的提升。另外，作者既然做了全局网络的实验，为什么没有做局部网络的实验呢？之前局部网络和第五行的网络差距又在哪里使得五、八的指标竟然相当？

作者还比较了其它一些基于相似性测度的配准方法，在作者的测试集上误差都比较大，这里就略去了。

3、Adversarial Deformation Regularization for Training

Image Registration Neural Networks

这篇论文可以看做前两篇论文的拓展。第一篇论文提出了基于标签驱动的弱监督配准框架，第二篇论文探讨了目标函数的设计和网络的设计，而本篇论文就讨论了形变场正则项的设计，并引入了GAN的思想来做形变场的正则化。

简单来看看这篇论文吧。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

黑色的部分就是论文相比前文改动的地方，用传统的配准方法实现生成一个局部的形变场作为金标准，然后设计了一个判别器来判断生成器生成的局部形变场是真是假，也就是说用这个判别器来做局部形变场的正则化，正则项就包含在了生成器的生成loss中。

基本思想就是这样，我觉得这样做差不多就是把监督学习和弱监督学习结合了起来，送给了网络更多的辅助信息，把这里的判别器直接换成平方根误差或许也未尝不可？

看看实验结果吧。

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

从表中可以看到引入GAN的确评价指标显著提高，但是，我觉得这样对比真的科学吗？像bending energy,l2范数这些正则项是直接对生成的形变场计算梯度之类，并没有引入其他的辅助信息，而本文的方法直接引入了一个其他配准方法生成的局部形变场作为辅助信息来约束网络的训练。

参考文献

【1】https://github.com/YipengHu/label-reg#section2-4

【2】Hu, Y. , Modat, M. , Gibson, E. , Ghavami, N. , Bonmati, E. , Moore, C.M. , Emberton, M. , Noble, J.A. , Barratt, D.C. , Vercauteren, T. , 2018. Label-driven weakly-supervised learning for multimodal deformable image registration. Biomed. Imaging (ISBI) 2018 IEEE 15th Int. Symp .

【3】Yipeng H , Marc M , Eli G , et al. Weakly-Supervised Convolutional Neural Networks for Multimodal Image Registration[J]. Medical Image Analysis, 2018.

【4】Hu Y , Gibson E , Ghavami N , et al. Adversarial Deformation Regularization for Training Image Registration Neural Networks[J]. 2018.

【配准】弱监督(Weakly-Supervised)系列配准论文阅读

1、Label-Driven Weakly-Supervised Learning For

Multimodal Deformable Image Registration

2、Weakly-supervised convolutional neural networks for multimodal image registration

3、Adversarial Deformation Regularization for Training

Image Registration Neural Networks

继续阅读

Few-Shot Object Detection via Sample Processing

Lattice-BERT 论文阅读Motivation 创新点

CVPR2020场景文字数据增强（python实现）

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

[论文解读]DeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided FuzzingDeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided Fuzzing

新手如何快速入门车辆控制领域？（附带读论文的工具）

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

ICLR 2021 | Autoregressive Entity Retrieval基本信息摘要介绍模型实验结果总结

论文解读：MisGAN: learning from incomplete data with generative adversarial networks.MisGANAbstractIntroductionMethod

[论文解读]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A SurveyThreat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

论文阅读——Parallel Multi-Resolution Fusion Network for Image Inpainting网络结构损失函数

Glove公式推导

GlobalMapper20配准一张普通图片（规划扫描图纸/高空照片）来直接叠加到地图上0概述：1.其他软件操作方法2.GlobalMapper20配准方法：扩展：

《论文阅读》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

目标检测系相关论文阅读基础网络检测算法框架优化方向

论文阅读笔记（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 论文简介二. 创新点和贡献：三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流（approach）六. 总结