天天看点

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

核心思想:

本论文的核心关注点在于卷积神经网络中的1x1卷积模块,作者指出在XCeption和ResNetXt等网络模型中,虽然采用了深度可分离卷积来降低参数量和计算量,但是这样又引入了大量的1x1标准卷积操作,导致的结果就是网络模型中存在大量的1x1卷积操作,1x1卷积的参数量和计算量占据了绝对的大头。下图是MobileNetV1网络使用深度可分离卷积之后的参数量和计算量统计,1x1卷积无论在参数量和计算量上都占据绝对大头:

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

核心方法:

所以本论文将1x1卷积作为重点关照对象,在深度可分离卷积中采用分组卷积的方式大大降低了卷积操作的参数量和计算量,所以作者将1x1卷积也修改为分组的1x1卷积,分组卷积的特点是各个channel单独进行卷积计算,没有融合多个channel的特征,即使堆叠多个分组卷积操作也无法提取到通道channel维度的融合特征。为了克服分组卷积带来的通道特征融合问题,论文中又提出对channel维度进行shuffle来实现通道维度特征融合的目的,这样使得后一层的卷积的输入中包含前一层输出的所有通道特征。这样就可以通过连续使用分组卷积来降低模型的参数量和计算量,同时还能保证提取到更具代表性的特征。

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

ShuffleNet核心单元:1x1分组卷积和channel shuffle

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

ShuffleNet网络结构:

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

存在的问题: 

分组卷积虽然显著降低了模型的参数量和计算量,但是带来了更多的显存访问次数,导致模型虽然有较少的参数量和计算量,但是推理时间(inference time)确并不一定少。这一点在X3D视频动作识别模型上也有所体现。

《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》

继续阅读