《Learning Spatiotemporal Features with 3D Convolutional Networks》解读

2023-07-30 13:09:58

创新点：

1、本文论证了3D卷积在时空特征学习的有效性，并在4个数据集上对比2D卷积及光流法、iDT法的有效性；

2、本文证明了333卷积的有效性，在UCF-101上证明了时空深度的变化和空间大小的变化对结果没有什么关键影响；

3、提出了3D卷积的架构，对过程进行可视化，论证了为什么3D卷积比较好；

学到的东西：

1、视频描述符的四个属性：1.通用型；2.紧凑性；3.高效性；4.简单性；

2、2D卷积和3D卷积的过程的差别，如下图：

《Learning Spatiotemporal Features with 3D Convolutional Networks》解读

3、UCF-101的处理方式：1.将视频分割成316128*171的片段30片，其中每连续两片之间有8帧的重叠；2.提取每个片段的fc6特征信息，通过平均到4096维video描述向量，并通过L2进行标准化；3.通过svm进行分类操作，并且在附录部分证明了128大小的图像效果更好；

4、[29]中使用120帧视频表现比C3D好，说明长帧会让分类更加准确，但是带来资源的浪费；

5、[46]解释了为什么3D卷积兼顾了运动与外观特征；

6、使用3个数据集分别训练出3个网络，并使用L2规则化比单一网络更具有范化性，性能更好，并且使用iDT特征与RGB的结合使得性能大幅度提高（对应之前的使用光流法和RGB进行提高精度的网络的结论），因为iDT和光流特征都是底层特征，3D卷积捕捉了抽象信息，结合使得更好；

7、3D卷积在PCA特征分析上表明特征的聚集性更高，并且使用t-SNE[43]进行特征可视化表明，3D卷积的可分离性更好；

8、对ground truth的标签设定：在16帧里面，出现最多的标签，作为整个视频帧的标签，但如果最多的标签少于8帧，则这个16帧被认定为没有object的负样本；

继续阅读