天天看点

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

基于FCOS,提出BorderAlign用于提取物体边界极限点的特征(四个点,物体的最上/下/左/右端的点)以增强FCOS的点特征(前面4个点加上fcos的1个点所以最终是5个点)。

ECCV2020 Oral

论文地址:https://arxiv.org/abs/2007.11056

1. 摘要

密集的目标检测器依赖于滑动窗口方式在常规图像网格上预测物体。 同时,采用网格点上的特征图来生成边界框预测。点特征使用方便,但可能缺少明确的边界信息以进行精确定位。 在本文中,作者提出了一种简单有效的方法,称为Border-Align,以从边界的极端点提取“边界特征”以增强点特征。 基于BorderAlign,设计了一种称为BorderDet的新型目标检测器,该体系结构显著利用边界信息来实现更强的分类和更准确的定位。 基于ResNet-50,BorderDet将FCOS检测器结果提高了2.8 AP(38.6 vs. 41.4)。 基于ResNeXt-101-DCN的BorderDet获得了50.3 AP。

2. 背景与动机

对于dense object detector(e.g. FCOS、FPN的RPN),都是使用simple point特征去预测框的分类和回归,但是发现只用一个点的特征是不够的,很难去捕捉到物体边界的信息来精准定位。这些年有很多研究通过级联的方式,希望通过引入更强的特征来增加simple point特征,主要包括GA-RPN、RepPoints等。但这些工作可能存在两个问题。

  • 这些检测器使用一些操作(e.g. Deformable Conv)来增强特征,但这些操作可能是冗余的,甚至会引入“有害”的背景信息。
  • 这些方法没有显式的提取边界特征,而边界极限点特征对边界框的定位比较重要。

如下图,这个运动员中心的五角星位置即为anchor点,但是确定该物体边界框的主要是边界上的四个橘色圆点,即这个运动员的边界框的位置主要由四个极限点来确定。用其他的方法可能会引入一些有害的信息,且不能直接有效的提取到真正有用的边界极限点。

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

所以基于上述两个问题,作者做了一些实验来验证提取物体的边界极限点的特征是不是能对物体精准定位有一些帮助?于是在FCOS检测器基础上,增加一些enhancement的特征来加强单点特征。主要有4组实验,分别来验证上面提到的两条问题(如下图)。(1) single point: 单点特征做增强; (2) region: 用ROIAlign提取框内所有特征来增强; (3)border使用边界上所有点的特征来增强; (4)只用边界中心点来增强。这四个实验的特征采样位置如下图,分别对应不同的采样点个数。

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

作者发现,提取边界的中心点的特征(第五行),能够达到和region feature同样的结果(第三行),且采样点个数少了很多。这意味着只需要更少的复杂度,就能够高效的提取到有用的特征。且同时证明了,边界极限点特征对物体定位确实有非常重要的作用。

3. 本文方法

3.1 总体结构

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

基于前面的分析,作者提出一种边界点提取特征的操作,精确定位物体的框。从局部到整体:(BorderAlign -> BAM -> BorderDet)。

基于anchor-free目标检测器FCOS作为baseline。由于BorderAlign中的边界提取过程需要边界位置作为输入,BorderDet采用了两个预测阶段。

以金字塔特征图作为输入,BorderDet首先预测粗分类分数和粗边界框位置(coarse cls score/reg),然后将粗边界框位置和特征图输入BAM模块,生成包含明确边界信息的特征图。最后,使用1×1卷积层来预测边界分类分数和边界框位置,然后和原始密集检测器的输出组合成为最后的输出。

3.2 BorderAlign

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

这是本工作最核心的一个操作,用来显式、自适应的提取物体边界的特征。如上图,受到RFCN的启发,BorderDet采用了 ( 4 + 1 )* C 个通道的边界敏感特征图作为输入,4+1 分别对应物体4个边界特征和原始anchor点位置的特征。对于一个anchor点预测的一个框,作者把这个框的4个border对应在特征图上的特征分别做pooling操作。且由于框的位置是小数,所以该操作使用双线性插值取出每个border上的特征。如图所示,每条边会先选出5个待采样点,再对这5个待采样点取最大的值,作为该条边的特征,即每条边最后只会选出一个采样点作为输出。那么每个anchor点都会采样5个点的特征作为输出,即输出的通道数也为5xC个。

假设输入特征图的顺序为单点、左边框、上边框、右边框和下边框,则输出的特征图F 可以表示为:

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • F c ( i , j ) F_c(i,j) Fc​(i,j)是输出特征映射 F F F的第 C C C个通道的第 ( i , j ) (i,j) (i,j)点上的特征值。
  • ( x 0 , y 0 , x 1 , y 1 ) (x_0,y_0,x_1,y_1) (x0​,y0​,x1​,y1​)是点$( i,j ) $上的边界框预测。
  • w w w和 h h h是 ( x 0 , y 0 , x 1 , y 1 ) ( x_0,y_0,x_1,y_1) (x0​,y0​,x1​,y1​)的宽度和高度。
  • 为了避免量化误差,通过双线性插值计算出的精确值 I c I_c Ic​与特征映射上的邻近特征值。

即如果特征点是属于第一组C的,因为它是中心点保留所有特征不变。而如果特征点是属于第二组C的,是为左边界特征,对其每个通道基于左边界的位置定位做最大池化,即对所有的左边界特征点的每一个通道做最大池化使其赋值为该边上特征最突出的点的特征。其余各边同理。通过这样的四组最大池化操作,选取了四条边界上最具代表性的特征点表征整个边界的特征,突出边界点上的特征优势,因为是逐点操作,最后BAM的输出仍为 H ∗ W ∗ 5 C H*W*5C H∗W∗5C。

3.3 Border Alignment Module (BAM)

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • BAM使用了来自FPN特征图的C个通道作为输入,然后进行1×1卷积层来做升维,几乎没有增加计算量,BorderAlign处理后再通过1×1卷积将输出边界敏感的特征图还原为256个通道,来做最后的边界分类与回归。
  • 边界敏感特征图由五个特征图组成,每个特征点和每个边界都有C个通道。因此,输出的特征图通道有(4+1)C个通道。默认分类的C=256,回归的C=128。

3.4 BorderRPN

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • 将BAM添加到RPN中,并将新结构表示为BorderRPN。
  • BorderRPN保留了RPN中的回归分支来预测粗边界框的位置,将RPN前3×3卷积替换成3×3空洞卷积,用于增加有效的感受野。

4. 实验

4.1 SOTA对比

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

4.2 消融实验

(1)分类回归分支

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • 分类分支,精准定位有助于最后的ranking,使NMS能够pick一个更好的边界框
  • 回归分支,获取极限点特征,更精准的回归,精修前一阶段的框,涨点很正常

(2)对比其他特征提取操作

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

和其他知名的特征增强器做对比,无论是速度还是精度,都比较有优势。

(3)在其他密集检测器上的泛化能力

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

在Retinanet上有2.3的提升、FPN上有3.6的提升,在不同模型上均有不俗的表现。

(4)BorderAlign确实在提取边界极限的特征,且边界极限点的特征对物体的精准定位确实有一些帮助。

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

左图:统计训练期间(5k迭代、30k迭代和90k迭代)从BorderAlign采样点到每个响应图的极值点的归一化距离,发现随着训练的进行,提取特征点的位置会逐渐趋于极限点的位置,均值在0附近,且方差逐渐变小。

右图:IoU>0.5的数量增加了约30%,特别是IoU>0.9的box数量几乎翻了一倍,精确定位效果更好。

(5)池化大小会影响模型的鲁棒性,但是较大的池化会耗费额外的计算,较小的池化会导致不稳定的结果

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验

(6)边界敏感性特征

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • 边界敏感性特征映射可以在不同通道的不同边界的极值点上被高度激活,便于后续边界特征提取。
  • 边界敏感表示边界特征和原始单点特征的提取是在不同的特征图上进行的。
  • 边界无关表示在单一特征图上进行提取的。

(7)通道池化策略

论文笔记之BorderDet1. 摘要2. 背景与动机3. 本文方法4. 实验
  • 在BorderAlign中,采用了通道最大池化策略,简单来说,就是每个通道的边界特征独立地沿着边界聚集。
  • 通道最大池化策略可以在不考虑背景噪声的情况下提取具有代表性的边界特征。
  • “Border-Wise”: 首先,通过不同的池化方法将特征映射沿着通道维度聚合,生成通道等于1的特征映射。然后,在目标的每个边界进行最大池化,找到边界极限点,并提取出极限点上的特征映射,形成边界特征。
  • “Channel-Wise”: 每个通道的边界特征通过平均池化或最大池化独立地聚集在边界上。

特征映射沿着通道维度聚合,生成通道等于1的特征映射。然后,在目标的每个边界进行最大池化,找到边界极限点,并提取出极限点上的特征映射,形成边界特征。

  • “Channel-Wise”: 每个通道的边界特征通过平均池化或最大池化独立地聚集在边界上。

继续阅读