论文要点
- 多尺度检测网络,各分支只关心自己负责的尺度范围;
- 网络设计以部署平台运行效率为目标,使用优化效果最高的结构设计网络;
- Anchor类方法有离散、样本不均、依靠经验等问题,提出使用RF的Anchor-Free方法。
主要内容
基于Anchors的方法存在问题
- Anchor很难充分覆盖所有尺寸的人脸;
- IOU阈值需要靠经验选取;
- Anchor数量与尺寸全靠经验,容易导致样本不平衡和冗余计算。
RF 和 ERF
Feature map中每一个点都对应一个感受野(RF),处于感受野越靠近中心位置的像素对结构影响越大;越小的人脸越需要更多的上下文信息,有效感受野(ERF)也就需要覆盖更多的context information(大的人脸能直接判别,但小的人脸需要借助脖子、肩膀等上下文信息来判断);感受野可以复用为Anchor。
模型结构
模型结构主干网络使用当前主流部署工具优化性能最高的3x3卷积核,通过降维分割为tiny、small、medium、large四个部分,分别取2、2、1、3共8路检测分支,每个分支通过1x1卷积核从主干网络中导出。由于测试BN层会减慢约17%,因此网络中不包含BN层。
根据网上大家的解读,RF的计算公式为:
R F i = R F i − 1 + ( k − 1 ) ∗ s t r i d e RF_i=RF_{i-1}+(k-1)*stride RFi=RFi−1+(k−1)∗stride
以下为根据这个公式的计算结果,不一定正确。由于训练的图像最大为640x640子图,所以RF的最大尺寸达到639。
55 = 35 + ( 6 − 1 ) ∗ 4 55=35+(6-1)*4 55=35+(6−1)∗4
71 = 55 + ( 5 − 1 ) ∗ 4 71=55+(5-1)*4 71=55+(5−1)∗4
111 = 71 + ( 6 − 1 ) ∗ 8 111=71+(6-1)*8 111=71+(6−1)∗8
143 = 111 + ( 5 − 1 ) ∗ 8 143=111+(5-1)*8 143=111+(5−1)∗8
223 = 143 + ( 6 − 1 ) ∗ 16 223=143+(6-1)*16 223=143+(6−1)∗16
383 = 223 + ( 6 − 1 ) ∗ 32 383=223+(6-1)*32 383=223+(6−1)∗32
511 = 383 + ( 5 − 1 ) ∗ 32 511=383+(5-1)*32 511=383+(5−1)∗32
639 = 511 + ( 5 − 1 ) ∗ 32 639=511+(5-1)*32 639=511+(5−1)∗32
损失函数
损失函数包含分类交叉熵、回归L2,其中分类损失计算时设定各分支只检测自己尺度范围内的人脸,主要为对下边界0.9-1、上边界1-1.1系数范围内设定gray scales,剩下的划分为positive/negative。
数据预处理
WIDER FACE数据集中的12880张图像,150000张验证集人脸,丢弃少于10x10像素的人脸(网络设计中能检测到的最小人脸为10x10)。输入图像先减127.5,再除以127.5.
数据增广方法包括:
- Color Distort 增加光噪声、更改亮度对比度等;
- Random Sampling 随机选择一个图像、一个人脸,选择某个区间内大小的人脸进行整体缩放,并以选择的人脸为中心截取一个640*640的子图,将超出的区域填充黑色。同时通过随机采样,保证不同分支输出人脸数相同、人脸被各分支采样的概率相同。
- Randomly Horizontal Flip 以0.5的概率对子图进行随机翻转。
训练过程中,根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
训练参数
参数 | 设定值 |
---|---|
初始化方法 | Xavier |
Optimization | Sgd |
Momentum | 0.9 |
Weight decay | |
Batchsize | 32 |
Lr | 0.1 |
Iteration | 1500000 |
衰减策略 | 600000/1000000/1200000/1400000 |
评估方法
SIO【Single Inference on the Original】以原图输入运行一次,而不进行多尺度变化 ,对SSH这种有trick的影响较大。
多平台测试,TITAN Xp、TX2、RaspberryPi3。
参数量与推理耗时的关系对比: E n e t = F L O P s / t E_{net}=FLOPs/t Enet=FLOPs/t
参考链接
论文地址
人脸识别论文阅读笔记1 – CVPR2019-LFFD
LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记
[论文理解] LFFD: A Light and Fast Face Detector for Edge Devices