注意力机制 cnn keras_CBAM：卷积注意力机制模块

2023-04-28 20:01:24

注意力机制 cnn keras_CBAM：卷积注意力机制模块

摘要

本文提出了卷积注意力模块（CBAM），这是一种用于前馈卷积神经网络的简单而有效的注意力模块。给定一个中间特征图，CBAM模块会沿着两个独立的维度（通道和空间）依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化。由于CBAM是轻量级的通用模块，因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中，并且可以与基础CNN一起进行端到端训练。本文通过在ImageNet-1K，MS COCO检测和VOC 2007检测数据集上进行的广泛实验来验证CBAM。实验表明，使用该模块在各种模型上，并在分类和检测性能方面的持续改进，证明了CBAM的广泛适用性。

模型

Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块，是一种结合了空间（spatial）和通道（channel）的注意力机制模块。相比于senet只关注通道（channel）的注意力机制可以取得更好的效果。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

上图给出了添加CBAM模块之后的整体结构。可以看到的是，卷积层输出的结果，会先通过一个通道注意力模块，得到加权结果之后，会再经过一个空间注意力模块，最终进行加权得到结果。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

通道注意力模块如上图子图1所示。将输入的特征图，分别经过基于width和height的global max pooling 和global average pooling，然后分别经过MLP。将MLP输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的channel attention featuremap。将该channel attention featuremap和input featuremap做elementwise乘法操作，生成Spatial attention模块需要的输入特征。以上是通道注意力机制的步骤。

换一个角度考虑，通道注意力机制（Channel Attention Module）是将特征图在空间维度上进行压缩，得到一个一维矢量后再进行操作。在空间维度上进行压缩时，不仅考虑到了平均值池化（Average Pooling）还考虑了最大值池化（Max Pooling）。平均池化和最大池化可用来聚合特征映射的空间信息，送到一个共享网络，压缩输入特征图的空间维数，逐元素求和合并，以产生通道注意力图。单就一张图来说，通道注意力，关注的是这张图上哪些内容是有重要作用的。平均值池化对特征图上的每一个像素点都有反馈，而最大值池化在进行梯度反向传播计算时，只有特征图中响应最大的地方有梯度的反馈。通道注意力机制可以表达为：

注意力机制 cnn keras_CBAM：卷积注意力机制模块

空间注意力模块如上图子图2所示。将Channel attention模块输出的特征图作为本模块的输入特征图。首先做一个基于channel的global max pooling 和global average pooling，然后将这2个结果基于channel 做concat操作。然后经过一个卷积操作，降维为1个channel。再经过sigmoid生成spatial attention feature。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

同样，空间注意力机制（Spatial Attention Module）是对通道进行压缩，在通道维度分别进行了平均值池化和最大值池化。MaxPool的操作就是在通道上提取最大值，提取的次数是高乘以宽；AvgPool的操作就是在通道上提取平均值，提取的次数也是是高乘以宽；接着将前面所提取到的特征图（通道数都为1）合并得到一个2通道的特征图。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

其中，

注意力机制 cnn keras_CBAM：卷积注意力机制模块

为sigmoid操作，7*7表示卷积核的大小，7*7的卷积核比3*3的卷积核效果更好。

实验

本文中，进行了较多的对比实验，旨在验证注意力模块的积极作用。

首先，对比了通道、空间以及通道&空间，不同注意力机制的效果。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

仅使用Channel Attention，对比的是使用AvgPool、MaxPool以及都使用时的性能

注意力机制 cnn keras_CBAM：卷积注意力机制模块

仅使用Spatial Attention，对比的是不同Avg，Max以及kernel_size的性能差异

注意力机制 cnn keras_CBAM：卷积注意力机制模块

CBAM模块，对比的是不同顺序的性能差异

可以看到的是，先使用Channel（AvgPool&MaxPool），再使用Spatial（avg&max，k=7）的性能是最优的。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

上图给出了ImageNet-1K数据集上，训练误差的曲线。同样的证明了，CBAM模块在训练集合验证集上，相比于Baseline和SE注意力机制，都有一定的提升。

最后，是使用Grad-cam进行了可视化，以来证明CBAM是真正地提取出了积极有效的特征。

注意力机制 cnn keras_CBAM：卷积注意力机制模块

CBAM，SE，Baseline等最后一层卷积层使用Gradcam进行可视化的对比图

参考文献

Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.

注意力机制 cnn keras 特征图注意力通道注意力机制 cnn keras

上一篇: 【AI视野·今日Robot 机器人论文速览第八期】Wed, 16 Jun 2021

下一篇: Docker-为镜像添加SSH服务

继续阅读