R-C3D:用于時間活動檢測的區域3D網絡

論文原稱：R-C3D: Region Convolutional 3D Network for Temporal Activity Detection（2017）

主要貢獻：

1.提出一個包括活動候選區和任意長度活動的分類的端到端模型。如下圖所示

2.提出在候選區生成和分類部分共享全卷積C3D特征，實作了比目前模型快5倍的速度。

論文主要從Faster R-CNN受啟發而來，論文大部分idea都是Faster R-CNN中提出的（看這篇論文的時候，我真是深感生不逢時啊），作者将2D目标檢測的方法用到了時間卷積網絡，是以出現了R-C3D。

R-C3D模型架構

　　如上圖所示，R-C3D由3部分組成，一個共享的3D ConvNet特征提取器，一個時間候選段（temporal proposal stage）生成部分，一個活動分類及調整部分。

模型輸入是3xLxHxW的RGB視訊幀，先經過3D ConvNet特征提取網絡，再由temporal proposal stage 生成候選區域，候選區域的連續幀将進行分類，并調整候選區域。

關于共享的3D ConvNet特征提取器沒有過多介紹，主要采取C3D網絡的五層卷積層，第五層輸出的尺寸是512x (L/8) x (H/16) x (W/16)。512是feature map 的通道數，H和W是112，L是任意長度的，受記憶體限制。

Temporal Proposal Subnet

　　這個部分的主要内容是實作模型對任意長度候選段的預測。

由于第五層輸出了長度為L/8的時間位置（temporal locations）（指的是時間次元上的長度）, 這裡每個位置産生K個anchor片段（對anchor不懂的，直接了解為K個片段也可以），每個anchor片段都有固定但不同的比例，即總共産生的anchor片段是L/8*K個。

然後，通過大小為（1xH/16xW/16）的3D最大池化對空間次元上進行下采樣（從H/16xW/16 到1x1 ）産生時間特征圖Ctpn (R512xL/8 x1x1)，Cptn中每個位置的512維的向量用來預測一個中心位置和每個anchor片段長度{Ci, Li}的相對偏移{$Ci, $Li}, i屬于{1, ...., K}

候選段的偏移和得分是通過在Cptn的頂端增加兩個1x1x1的卷積層來預測的。

在訓練階段，通過兩種方式來确定正樣本，

1）與一些ground-truth活動的IoU值大于0.7；

2）與一些ground-truth活動的IoU值最大。

若IoU低于0.3，則直接認為是負樣本。最後正負樣本的比例為1:1.

Activity Classification Subnet

　　對上個階段産生的anchor proposal片段（由于比例不一樣，是以長度不一）通過3D RoI池化來抽出固定長度的候選段（長度都一樣），然後對候選段進行分類和邊界回歸。

對于那些生成的anchor 候選段，互相覆寫率比較高的，且置信度比較低的，使用非極大值抑制（NMS）直接去除，NMS的門檻值設為0.7。

關于3D RoI，其作用就是從任意的L，H，W的圖輸出一個固定大小的圖。

例如，輸入的圖的尺寸是 LxHxW, 需要輸出的大小為Ls x Hs xWs。隻需要一個大小為L/Ls, H/Hs, W/Ws的最大池化操作即可。

回到本文，在經過3D RoI池化後輸入兩個全連接配接層，經過兩個全連接配接層後進入分類和候選段回歸部分，分類和回歸又是各自兩個全連接配接層。（具體看圖2）

Optimization

分類使用softmax, 回歸使用smooth-L1 loss ,

關于smooth-L1 loss如下：

是以整個模型的目标函數為：

前面部分是分類的部分。後面的部分是回歸。

關于回歸部分，ti表示預測的相對偏移量，ti*表示ground truth片段轉到anchor片段的轉移坐标(這句話比較難了解，這裡anchor片段指的是對時間次元進行了卷積操作後（變了長度）的部分而ground truth指的是原視訊的片段，（感覺這個anchor不是yolo裡的那個anchor了，yolo裡的anchor指的是原圖檔下的點）)。

其坐标 ti={$Ci, $Li }，ti 和ti* 計算如下：

帶*的Ci是ground truth的中心，Ci是anchor 的中心，帶*的Li是ground truth的長度，Li是anchor的長度。

為防止這部分沒講清楚，把論文原文相關部分貼在下面

到此，R-C3D的主要内容就講完了，剩下的是一些實驗，如IoU門檻值取多少合适，論文進行了不同門檻值效果對比，發現取0.5比較好，然後還測試了門檻值取0.5時在THUMOS14資料集上各個類别的AP值，以及與其他模型取得的AP值對比。

最後是R-C3D與其他SOTA模型的一些map與速度對比。具體如下：

如有錯誤或不合理之處，歡迎在評論中指正。

本文來源于微信公衆号“ CV技術指南 ” 。更多内容與最新技術動态盡在公衆号釋出。

歡迎掃描下方二維碼關注公衆号“CV技術指南”，主要進行計算機視覺方向的論文解讀，最新技術跟蹤，以及CV技術的總結。

原創文章第一時間在公衆号中更新，部落格隻在有空時間才更新少量公衆号文章