2018 IEEE
Xiang Wu, Ran He, Zhenan Sun and Tieniu Tan
一、简介
本文提出了一个轻量级的CNN框架来学习带有大量噪声标签的大规模人脸数据的紧凑嵌入。
我们在CNN的每个卷积层引入一种称为最大特征映射(MFM)的最大输出激活变体。与使用许多特征映射来线性逼近任意凸激活函数的最大化激活不同,MFM是通过竞争关系来实现的。MFM不仅可以分离噪声信号和信息信号,还可以在两个特征图之间起到特征选择的作用。
三个网络被精心设计以获得更好的性能,同时减少参数数量和计算成本。
提出了一种基于预处理深层网络的语义自举方法来处理大规模数据集上的噪声标记图像,使网络预测与噪声标签更加一致。不一致的标签可以通过预测的概率有效地检测出来,然后重新标记或者移除进行训练。
二、Max-Feature-Map(MFM)
MFM使用max函数来抑制少量神经元的激活。MFM被设计出来要实现以下三个特性:
- 由于大规模数据集通常包含各种类型的噪声,我们希望噪声信号和信息信号能够被分离开。
- 当图像中存在水平边缘时,对应于水平信息的神经元被激发,而对应于垂直信息的神经元被抑制。
- 对一个神经元的抑制是无参数的,因此它不广泛依赖于训练数据。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL1ElaNBzZq5EeRpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLwMzN3QzMxkTMwMzMwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
MFM2/1的运算是组合两个特征图,然后一一对应的按元素输出最大值。
MFM2/1通过跨特征通道的元素最大化操作方式从输入特征图中获得50%的信息神经元。
例如,输出特征图中9这个位置的值就是取特征图一中1位置的值与特征图二中5位置的值之间的最大值。
MFM3/2是为了获得更具可比性的特征图,输入三个特征图并逐个元素的去除最小一个元素。
MFM3/2从输入的特征图中选择保留2/3的信号。
带有MFM的CNN可以获得紧凑的表示,而MFM层的梯度是稀疏的。由于MFM的梯度稀疏性,一方面,在训练阶段做反向传播时,随机梯度下降只能对响应变量的神经元产生影响;另一方面,当提取用于测试的特征时,MFM可以通过激活两个特征映射的最大值来从先前的卷积层获得更多的竞争节点。这证明了MFM可以执行特征选择并促进生成稀疏连接。
三、三种框架
LightCNN-4:
LightCNN-4由4个MFM的卷积层和4个maxpool层组成。
LightCNN-9:
LightCNN-9由5个卷积层、4个1×1卷积层、4个MFM层和4个maxpool层。
1×1的卷积层可以潜在的在卷积层之间进行特征选择,并且减少了参数。
LightCNN-29:
将残差块的思想引入到LightCNN中。
残差块包含两个3×3的卷积层和两个没有批量归一化的MFM运算。
残差块去除批量归一化。尽管批量归一化对于加速训练的收敛和避免过拟合是有效的,但是在实践中,批量归一化是特定于领域的,当测试样本来自于训练数据不同的领域时,这可能是失败的。