論文原稱:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection(2017)
主要貢獻:
1.提出一個包括活動候選區和任意長度活動的分類的端到端模型。如下圖所示

2.提出在候選區生成和分類部分共享全卷積C3D特征,實作了比目前模型快5倍的速度。
論文主要從Faster R-CNN受啟發而來,論文大部分idea都是Faster R-CNN中提出的(看這篇論文的時候,我真是深感生不逢時啊),作者将2D目标檢測的方法用到了時間卷積網絡,是以出現了R-C3D。
R-C3D模型架構
如上圖所示,R-C3D由3部分組成,一個共享的3D ConvNet特征提取器,一個時間候選段(temporal proposal stage)生成部分,一個活動分類及調整部分。
模型輸入是3xLxHxW的RGB視訊幀,先經過3D ConvNet特征提取網絡,再由temporal proposal stage 生成候選區域,候選區域的連續幀将進行分類,并調整候選區域。
關于共享的3D ConvNet特征提取器沒有過多介紹,主要采取C3D網絡的五層卷積層,第五層輸出的尺寸是512x (L/8) x (H/16) x (W/16)。512是feature map 的通道數,H和W是112,L是任意長度的,受記憶體限制。
Temporal Proposal Subnet
這個部分的主要内容是實作模型對任意長度候選段的預測。
由于第五層輸出了長度為L/8的時間位置(temporal locations)(指的是時間次元上的長度), 這裡每個位置産生K個anchor片段(對anchor不懂的,直接了解為K個片段也可以),每個anchor片段都有固定但不同的比例,即總共産生的anchor片段是L/8*K個。
然後,通過大小為(1xH/16xW/16)的3D最大池化對空間次元上進行下采樣(從H/16xW/16 到1x1 )産生時間特征圖Ctpn (R512xL/8 x1x1),Cptn中每個位置的512維的向量用來預測一個中心位置和每個anchor片段長度{Ci, Li}的相對偏移{$Ci, $Li}, i屬于{1, ...., K}
候選段的偏移和得分是通過在Cptn的頂端增加兩個1x1x1的卷積層來預測的。
在訓練階段,通過兩種方式來确定正樣本,
1)與一些ground-truth活動的IoU值大于0.7;
2)與一些ground-truth活動的IoU值最大。
若IoU低于0.3,則直接認為是負樣本。最後正負樣本的比例為1:1.
Activity Classification Subnet
對上個階段産生的anchor proposal片段(由于比例不一樣,是以長度不一)通過3D RoI池化來抽出固定長度的候選段(長度都一樣),然後對候選段進行分類和邊界回歸。
對于那些生成的anchor 候選段,互相覆寫率比較高的,且置信度比較低的,使用非極大值抑制(NMS)直接去除,NMS的門檻值設為0.7。
關于3D RoI,其作用就是從任意的L,H,W的圖輸出一個固定大小的圖。
例如,輸入的圖的尺寸是 LxHxW, 需要輸出的大小為Ls x Hs xWs。隻需要一個大小為L/Ls, H/Hs, W/Ws的最大池化操作即可。
回到本文,在經過3D RoI池化後輸入兩個全連接配接層,經過兩個全連接配接層後進入分類和候選段回歸部分,分類和回歸又是各自兩個全連接配接層。(具體看圖2)
Optimization
分類使用softmax, 回歸使用smooth-L1 loss ,
關于smooth-L1 loss如下:
是以整個模型的目标函數為:
前面部分是分類的部分。後面的部分是回歸。
關于回歸部分,ti表示預測的相對偏移量,ti*表示ground truth片段轉到anchor片段的轉移坐标(這句話比較難了解,這裡anchor片段指的是對時間次元進行了卷積操作後(變了長度)的部分而ground truth指的是原視訊的片段,(感覺這個anchor不是yolo裡的那個anchor了,yolo裡的anchor指的是原圖檔下的點))。
其坐标 ti={$Ci, $Li },ti 和ti* 計算如下:
帶*的Ci是ground truth的中心,Ci是anchor 的中心,帶*的Li是ground truth的長度,Li是anchor的長度。
為防止這部分沒講清楚,把論文原文相關部分貼在下面
到此,R-C3D的主要内容就講完了,剩下的是一些實驗,如IoU門檻值取多少合适,論文進行了不同門檻值效果對比,發現取0.5比較好,然後還測試了門檻值取0.5時在THUMOS14資料集上各個類别的AP值,以及與其他模型取得的AP值對比。
最後是R-C3D與其他SOTA模型的一些map與速度對比。具體如下:
如有錯誤或不合理之處,歡迎在評論中指正。
本文來源于微信公衆号“ CV技術指南 ” 。更多内容與最新技術動态盡在公衆号釋出。
歡迎掃描下方二維碼關注公衆号“CV技術指南”,主要進行計算機視覺方向的論文解讀,最新技術跟蹤,以及CV技術的總結。
原創文章第一時間在公衆号中更新,部落格隻在有空時間才更新少量公衆号文章