天天看點

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

一、摘要:

密歇根大學和谷歌的工作,提出一個把Faster-rcnn思想從目标檢測領域遷移到時序動作定位任務的方法,之前有直接改Faster-rcnn的R-C3D,本文對faster-rcnn做了修改,使之更适用于時序動作定位任務,目前是Thumos14的最好效果,tIOU=0.5的時候達到了42.8%(直接從去年最佳的CBR提高了11.8個百分點,很強)。

時序動作檢測簡介:https://blog.csdn.net/qq_33278461/article/details/80720104

TAL-net(本文):https://arxiv.org/abs/1804.07667?context=cs

提出一個TAL-Net,這個網絡應用了三個方法解決之前工作的不足:

1)提出一個感受野對齊方法:應用多尺度的結構來适應時間片段的極端變化

2)通過擴充感受野來更好的利用上下文資訊

3)融合光流資訊,并證明晚融合效果更好。

二、引言:

1.解決動作上時序片段變化大的問題?

時間段的變化比目标檢測的區域變化範圍更大,可能一個動作1秒到幾分鐘之間,Faster- rcnn評估不同尺度的proposals用的是共享的特征,時間段的範圍和anchor的跨度不能對齊。

作者提出多尺度的網絡結構(mutilti-tower)和擴張卷積(dilated temporal conv)來擴大感受野并對齊。

2.解決利用上下文的資訊問題?

時間上的動作開始之前和之後的這些上下文資訊對時序定位任務的作用比空間上的上下文對目标檢測的作用要大的多。Faster-rcnn沒有利用到上下文。

作者提出通過擴充在生成proposals和動作分類時的感受野解決這個問題。

3.怎麼能最好的融合多流資訊?

目前在動作分類上的任務效果好的都是混合了FLOW和RGB特征,Faster-rcnn沒有融合。

作者提出一個分類結果上融合的晚融合的方法,并且證明了這個方法比在特征上在早融合在處理的方法效果好。

三、Faster-rcnn:

圖1中左圖是原Faster-rcnn用在2-D的目标檢測上的結構,右圖是直接用來時序動作檢測任務,直接把anchor、proposals、pooling全變成了對1-D時間次元的處理

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

四、TAL-Net

1.感受野對齊:

faster-rcnn在目标檢測上利用共享的頂層特征,然後用設定K個1*1過濾器對應K個尺度找類别不可知的proposals是可以的,但是時序動作定位任務片段跨度太大,thumos14資料集上1秒到1分多鐘的片段都有,是以需要範圍更寬的尺度,但是感受野太小,可能沒有提取到足夠的特征給長時間段的anchor;感受野太大對短時間anchor又不利。

解決這個問題關鍵的兩步驟:

1)multi-tower ;

2)dilated temporal convolutions:

輸入1-D特征圖,作者提出的Segment proposal network是K個temporal convnets的集合,每個負責分類特定尺度的anchor segments,每個temporal convnet感受野的尺寸和anchor尺寸要重合。每個卷積網絡最後用兩個kernel size為1的卷積層對anchor分類和對邊界回歸。

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

接下來要設計與感受野s對應的temporal convnet,一個方法是多疊加幾層卷積,這個方法容易過拟合并且增加很多參數;還有一個方法是增加池化層,這個方法會降低輸出特征圖的分辨率吧。

為了避免增加模型參數并且想保持住分辨率,這裡提出用dilated temporal convolutions(擴張時序卷積)。和普通卷積類似,隻不過計算的不是相鄰位置,而是計算的時候增加了一些空洞(間隔)。

這裡每個temporal convnet隻有兩層dilated conv layers,目标感受野尺寸s,定義兩層的dialation rate :r1=s/6 ,r2=s/6*2,為了平滑輸入,在第一個conv層前加了一個kernel size s/6的最大池化

2.上下文資訊提取

上一步提到的生成proposal方法隻計算了anchor内的,沒有考慮上下文,為了對anchor分類和回歸的時候加入上下文資訊。在anchor前後各取s/2長度加入一起計算,這個操作可以通過dilated rate*2來完成,r1=s/6*2,r2=s/6*2*2,最大池化的kernel size也要加倍s/6*2

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

3.特征晚融合

先用兩個網絡分别提取1-D的RGB和FLOW特征,輸入生成proposal生成網絡(rpn)最後兩個分數做均值産生proposals,這時候把proposals結合各自網絡特征最分類(fast-rcnn部分)在把兩個網絡結果做均值。

作者證明了這種方法比特征早融合,然後用這個特征一直計算到結果的方法效果好一些。

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

五、實驗

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

上圖證明了multi-tower和dilated組合效果最好

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

上圖證明了multi-tower+dilated+context效果最好

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

上圖證明了計算之前加上上下文池化效果好

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

上圖證明了特征晚融合>早融合>FLOW>RGB

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

上圖證明作者方法在proposals數目少的時候找的比較全,即proposal品質高

時序動作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

目前該方法效果超過之前方法很多,IOU=0.7都有20.8

繼續閱讀