《Learning Spatiotemporal Features with 3D Convolutional Networks》解讀

2023-07-30 13:09:58

創新點：

1、本文論證了3D卷積在時空特征學習的有效性，并在4個資料集上對比2D卷積及光流法、iDT法的有效性；

2、本文證明了333卷積的有效性，在UCF-101上證明了時空深度的變化和空間大小的變化對結果沒有什麼關鍵影響；

3、提出了3D卷積的架構，對過程進行可視化，論證了為什麼3D卷積比較好；

學到的東西：

1、視訊描述符的四個屬性：1.通用型；2.緊湊性；3.高效性；4.簡單性；

2、2D卷積和3D卷積的過程的差别，如下圖：

《Learning Spatiotemporal Features with 3D Convolutional Networks》解讀

3、UCF-101的處理方式：1.将視訊分割成316128*171的片段30片，其中每連續兩片之間有8幀的重疊；2.提取每個片段的fc6特征資訊，通過平均到4096維video描述向量，并通過L2進行标準化；3.通過svm進行分類操作，并且在附錄部分證明了128大小的圖像效果更好；

4、[29]中使用120幀視訊表現比C3D好，說明長幀會讓分類更加準确，但是帶來資源的浪費；

5、[46]解釋了為什麼3D卷積兼顧了運動與外觀特征；

6、使用3個資料集分别訓練出3個網絡，并使用L2規則化比單一網絡更具有範化性，性能更好，并且使用iDT特征與RGB的結合使得性能大幅度提高（對應之前的使用光流法和RGB進行提高精度的網絡的結論），因為iDT和光流特征都是底層特征，3D卷積捕捉了抽象資訊，結合使得更好；

7、3D卷積在PCA特征分析上表明特征的聚集性更高，并且使用t-SNE[43]進行特征可視化表明，3D卷積的可分離性更好；

8、對ground truth的标簽設定：在16幀裡面，出現最多的标簽，作為整個視訊幀的标簽，但如果最多的标簽少于8幀，則這個16幀被認定為沒有object的負樣本；

繼續閱讀