arXiv 2021
Hu Zhang, Keke Zu, Jian Lu, Yuru Zou, Deyu Meng
论文地址
一、简介
目前存在的注意力机制存在两个问题:1)如何有效的捕获和利用不同比例尺度的maps的空间信息,丰富maps的空间;2)通道和空间注意力只能捕获局部信息,而不能建立长期的通道依赖关系。
提出了一种新的轻量级、高效的注意力分配方法——金字塔分裂注意模块(PSA)。并且,将ResNet的block中的3×3的卷积替换为PSA,从而得到一个新的block名为搞笑金字塔分裂注意(EPSA),该块能够在更细粒度的层次上有效地提取多尺度空间信息,并形成长距离通道依赖性。
通过堆叠EPSA模块,提出了一种新的骨干网络EPSANet,它能够学习更加丰富的多尺度特征表示,并自适应的重新较准跨维通道注意权重。
二、方法
2.1 通道注意力思考
通道注意力机制允许网络选择性的对每个通道的重要性进行加权,从而生成更具信息性的输出。SE模块由压缩和激励两部分组成,分别用于编码全局信息和自适应的重新较准通道关系。
通道统计可以通过使用全局平局池化层来生成,用于将全局空间信息嵌入到通道描述符中。随后,通过两个完全连接层,可以更有效地组合通道间地线性信息,有利于高、低通道维数信息地交互。最后,激励函数Sigmoid,可以在通道相互作用后给通道赋值,从而更有效地提取信息。
2.2 PSA模块
PSA模块主要分为四个步骤:
- 通过实现 Split 和 Concat(SPC)得到通道方向地多尺度特征maps;
- 利用SEWeight提取不同尺度特征maps地关注度,得到通道方向地关注度矢量;
- 利用Softmax对通道关注向量进行重新校准,得到多尺度通道地重新较准权重;
- 对重新较准地权重和对应地特征图应用逐元素乘积地运算,最后得到更丰富地多尺度特征信息的精化特征图。
在金字塔结构中使用多尺度卷积核可以产生不同空间分辨率和深度,对于每个分割的部分,他独立地学习多尺度空间信息,并以本地方式建立跨通道交互。为了不增加计算量的情况下,处理不同尺度下的输入张量,引入了一种分组卷积方法,并将其并行应用于卷积核。其中多尺度核大小和组大小之间的关系可以写为:
多尺度特征maps的生成函数如下:
拼接得到处理后的特征maps:
上图为SPC操作,我看了代码,发现作者并没有先split操作,直接通过金字塔组卷积将其分为四个部分,然后拼接在一起。
随后,对每一组特征进行分别进行SEWeight提取通道注意权重,然后将四组权重拼接在一块,然后使用Softmax,具体公式如下:
我们提出的PSA模块可以将多尺度空间信息和跨通道注意力整合到每个分割的特征组的块中。因此,我们提出的PSA模型可以更好地实现局部和全局通道注意力之间的信息交互。
2.3 网络设计
EPSANet继承了EPSA块的优点,具有很强的多尺度表示能力,并能自适应地重新校准跨维通道权重。