天天看点

【论文笔记】:Center and Scale Prediction: A Box-free Approach for Object Detection

&Title:

  • Center and Scale Prediction: A Box-free Approach for Object Detection

&Summary

论文与CenterNet:Object as points 文章的思想很相似。以行人检测为例将目标检测简化为一个直接的全卷积式的中心点和尺度预测任务,CSP (Center and Scale Prediction) 检测器结构简单。

首先将一张图像输入全卷积网络,基于网络提取的特征图预测两个映射图,一个以热图的方式呈现目标的中心点位置,一个负责预测目标的尺度。在此基础上,便可以将两者映射到原图上并解译成目标检测框:中心点热图的位置对应检测框的中心位置,预测的尺度大小对应检测框的大小,而中心点热图上的置信度则对应检测框的得分。

【论文笔记】:Center and Scale Prediction: A Box-free Approach for Object Detection

该算法在行人检测和面部检测数据集上做了实验,准确率有竞争力。

&Research Objective

一种 box-free 的物体检测方法

受启发于传统的特征点检测任务和最近的全卷积关键点检测和配对的工作,本文提出了一种无需密集滑窗或锚框的全卷积预测目标中心点和尺度大小的行人检测方法,为目标检测提供了一个新的视角。
本文工作也受启发于近些年的一些关键点检测和配对的工作。在已有工作中,全卷积神经网络 (FCN) 已被成功地应用于多人姿态估计,首先全卷积检测人体关键点,然后进行组合配对的方式。CornerNet 和 TLL 通过一对对角点检测或上下顶点检测并两两配对的方式,成功地抛弃了锚框,实现目标检测 (第一代 YOLO 不使用锚框)。虽然多个关键点需要额外的配对策略,有些配对方法较为复杂,这一系列工作启发了本文实现简单的全卷积预测中心和尺度的检测器。

&Problem Statement

物体检测通常需要传统的滑动窗口分类器或现代深度学习方法中基于锚框的预测。但是,这些方法中的任何一种都需要在 boxes 上进行繁琐的配置。

对目标检测而言,从开创性的 Viola-Jones 检测器开始,均采用的是密集滑动窗口分类器的形式。即使是当前基于卷积神经网络的主流检测器,不管是两阶段的 Faster R-CNN 系列,还是单阶段的 SSD 系列,其采用铺设锚点框的检测方法,本质上仍然是子窗口分类器的形式。这些检测器本质上都是在训练一个局部分类器用于判断预设的子窗口或锚框内是否存在目标。然而这些方法都不可避免地需要针对特定数据集设计甚至优化滑窗或锚框超参数,从而增加了训练难度并限制检测器的通用性。这些滑窗或锚框超参数包括:窗口数目、窗口大小、长宽比例、与标注框的重叠率阈值等。这些超参数通常是检测任务和数据集相关的,难以调优也难以通用。一般而言,目标检测涉及两个方面:目标在哪里 (where),以及目标有多大 (how)。这些已有方法把这两方面绑定在一个窗口或锚框里,并通过局部分类器一次性判断各种不同大小、不同比例的窗口或锚框是否是目标。这种绑定就造成了超参数的各种组合问题。而本文提出的 CSP 检测器通过两个直接的卷积解离了这两个子问题,以更自然的方式实现目标检测,从而规避了锚框超参数的各种组合配置,简化了检测器的训练。

&Method(s)

在本文中,我们提供了一个新的视角,其中检测物体被明确为高级语义特征检测任务。类似边缘、角落、斑点和其他特征检测器,本文提出的检测器扫描整个图像上的特征点,卷积自然适合这类任务。然而,与这些传统的低级特征不同,所提出的检测器用于更高级别的抽象,即我们正在寻找存在物体的中心点,并且现代深度模型已经能够进行如此高级的语义抽象。此外,像斑点检测一样,我们也预测中心点的尺度,这也是一个简单的卷积。因此,在本文中,物体检测通过卷积简化为简单的中心和尺度预测任务。这样,所提出的方法具有 box-free 设置。

【论文笔记】:Center and Scale Prediction: A Box-free Approach for Object Detection

网络包括两个部分:特征提取和检测。前者把不同分辨率的特征图连在一起,后者是卷积层和两个预测层,分别对应中心位置和尺度大小。基于上述特征图,检测头负责将特征图解译成检测结果。

在检测头模块中,首先接上一个 3x3 卷积层将输入特征图的维度压缩到 256,然后接上两个并联的 1x1 卷积层产生目标中心点热图和目标尺度预测图,这样相较于 R-CNN 及 SSD 等工作而言极大地简化了检测头模块。实验表明中心点检测和尺度预测已经足以胜任行人检测任务。但采用降采样的特征图会影响目标定位性能,为了弥补这一缺陷,在中心点以及尺度预测之外,还可以额外添加一个偏移预测分支,用以进一步预测中心点到真实目标中心的偏移。与CenterNet的不同之处为,在最后检测头处理中,CenterNet将提取到的特征图分别送入三个子网络,拥有单独的33卷积和11卷积块,没有像本文一样共享了同个3*3卷积层。

下图给出了中心点和尺度的生成示例:对于中心点,当目标中心落在哪个位置,则在该位置赋值 1 (即正样本),其它位置赋值 0 (即负样本)。对于尺度图,当目标中心落在哪个位置,则在该位置赋值尺度的 log 值(CenterNert中没有进行log操作),其它位置赋值 0。取 log 函数是为了将分布范围较大的原始尺度压缩在一定的范围内,并且误差是尺度无关的,以有利于检测器的训练。考虑到单一中心点的不确定性,在图 © 中定义了一个高斯掩码,用以降低中心点周围负样本的权重。

【论文笔记】:Center and Scale Prediction: A Box-free Approach for Object Detection

图 (a) 是基于锚箱的探测器通常采用的边界框注释。

图 (b) 是 (a) 自动产生的中心和尺度ground truth。所有对象的中心点的位置都被指定为正数,否则指定为负数。如果相应对象是正点,则为每个像素分配比例值,否则为0。为清晰起见,我们仅显示两个正面的高度信息。

图 © 是等式 (4) 中定义的总高斯掩模图M,以减少围绕正面像素点 的 负面像素点 的歧义(因为这些点距离中心点很近,不能直接当成负样本来对待)。

&Evaluation

&Conclusion

受传统特征检测任务的启发,我们提供了一种新视角,其中行人检测作为高级语义特征检测任务通过直接卷积进行中心和比例预测而被激发。这样,所提出的方法享有无盒设置,并且也没有像最近基于关键点配对的检测器那样的复杂后处理策略。

  • 因此,拟议的CSP探测器在两个具有挑战性的行人检测基准上实现了最先进的性能,即CityPersons和Caltech。
  • 由于CSP检测器的一般结构,我们进一步评估它在最流行的面部检测基准上的面部检测,即WiderFace。
  • 与其他先进的基于锚盒的人脸探测器相比,其性能也表明了所提出的CSP探测器的竞争力。
  • 此外,行人检测和人脸检测的跨数据集评估实验进一步证明了CSP比基于锚箱的探测器更优越的通用能力。
  • 对于未来的可能性,进一步探索CSP在一般物体检测方面的能力是有意义的。

&Notes

主要贡献:
  • 我们展示了一种新的可能性,即物体检测可以通过卷积简化为简单的中心和尺度预测任务,绕过基于锚框的检测器的限制并摆脱最近基于关键点配对的检测器的复杂后处理。
  • 提出的 CSP 检测器在两个具有挑战性的行人检测基准数据集上 (CityPersons [55] and Caltech [8]) 实现了新的最佳性能。它也在最流行的面部检测基准数据集之一 WiderFace [51] 上实现了竞争性的表现。
  • 当进行交叉数据集评估时,所提出的 CSP 检测器具有良好的泛化能力。
others:
  • WiderFace 人脸检测数据集上实验,尺度采用了高度 + 宽度预测,因为 WiderFace 的人脸标注是包含各种变化的宽高比的。DSFD 是基于锚框的面部检测器的优秀代表,其一大贡献就是改进了锚点框的匹配策略。但对比跨库测试结果可以看出,在一个库上采用的锚框配置,离开这个库可能会存在已配置好的锚框的适用性问题。而 CSP 是简单地预测目标中心和尺度,无预设的锚框配置,因此相对而言能更好地适应不同的场景或数据集。
  • CSP 的小目标检测能力得益于大分辨率的特征图。而对于遮挡,传统的基于密集滑窗或者基于 Faster R-CNN、采用感兴趣区域池化 (ROI Pooling) 的检测器,本质上都是对目标区域的一个整体判断的分类器,因此目标区域的遮挡和背景等信息是包含在其整体判断里的。而本文提出的 CSP 对目标在哪里和有多大进行了解离,在热图上只检测中心点,尺度大小是额外预测的,因此受遮挡的影响相对较小。但是对于同类别的遮挡物体,如果二者的中心点重合,CSP算法也是无能为力的。
  • 目标中心点预测是一个二分类问题,判断热图的每个位置是否存在目标中心点,是中心点则为正样本,否则为负样本。然而通常情况下一个完美的目标中心点是很难定义的。由于正样本周围的负样本距离中心点非常近,很容易被标注误差所干扰,因此直接将其指定为负样本会给检测器的训练带来困扰。对此,本文在每个正样本及其周围采用一个高斯掩码,该高斯掩码以目标中心点为中心坐标,其水平/垂直方差与目标的宽度/高度成正比。如果两个目标的高斯掩码之间存在重合,则择取二者中的最大值。为了应对正负样本数量极端不平衡的问题,对难分样本赋予更大的权重。结合高斯掩码和 focal weights [24],一是难分样本的权重得到了增强,二是在正样本周围的负样本的权重得到了降低。最后,目标的尺度预测可以构建为一个回归问题,由经典的平滑 L1 损失给出。
  • 目标尺度可以定义为目标高度和/或宽度。对于行人检测而言,为了得到更紧致的目标包围框,近期的研究均采用人体中轴线标注,即确定行人的上顶点和下顶点并形成连线得到行人高度,然后采用固定的宽高比 0.41 直接确定行人宽度,进而生成目标包围框。基于此,CSP 行人检测器可以只预测目标高度,然后根据固定宽高比 0.41 生成检测框用于后续评估,这是由行人直立行走的特性决定的。但对于其他非行人目标而言,CSP 的尺度预测就需要同时预测目标高度和宽度。

&推荐

  • Center and Scale Prediction: A Box-free Approach for Object Detection
  • Anchor-free目标检测算法系列6:CSP(中心点+尺度预测)Center and Scale Prediction: A Box-free Approach for Object Detect
  • CSP: Center and Scale Prediction CVPR2019行人检测论文 翻译+解读