天天看點

Video Analysis 相關領域解讀之Temporal Action Detection

給定一段未分割的長視訊,算法需要檢測視訊中的行為片段(action instance),包括其開始時間、結束時間以及類别。一段視訊中可能包含一個或多個行為片段。

action recognition與temporal action detection之間的關系同 image classfication與 object detection之間的關系非常像。基于image classification問題,發展出了許多強大的網絡模型(比如ResNet,VGGNet等),這些模型在object detection的方法中起到了很大的作用。同樣,action recognition的相關模型(如2stream,C3D, iDT等)也被廣泛的用在temporal action detection的方法中。

由于temporal action detection和object detection之間存在一定的相似性,是以很多temporal action detection方法都采用了與一些object detection方法相似的架構(最常見的就是參考R-CNN系列方法)。具體的會在後面的論文介紹中講到。

時序行為檢測的難點1:在目标檢測中,物體目标的邊界通常都是非常明确的,是以可以标注出較為明确的邊界框。但時序行為的邊界很多時候并不是很明确,什麼時候一個行為算開始,什麼時候行為算結束常常無法給出一個準确的邊界(指精确的第幾幀)。

時序行為檢測的難點2:隻使用靜态圖像的資訊,而不結合時序資訊在行為識别中是可以的(雖然結合時序資訊效果會更好)。但在時序行為檢測中,是無法隻使用靜态圖像資訊的。必須結合時序的資訊,比如使用RNN讀入每幀圖像上用CNN提取的特征,或是用時序卷積等。

時序行為檢測的難點3:時序行為片段的時間跨度變化可能非常大。比如在ActivityNet中,最短的行為片段大概1s左右,最長的行為片段則超過了200s。巨大的時長跨度,也使得檢測時序動作非常難。

我認為設計一個好的時序行為檢測方法的關鍵主要在于以下兩點:

高品質的時序片段(行為的時序邊界):很多方法都是使用Proposal + classification的架構。對于這類方法,重要的是較高的proposal品質(即在保證平均召回率的情況下,盡可能減少proposal的數量)。此外,對于所有方法,擷取準确的時序行為邊界都是非常重要的。

準确的分類(行為的類别):即能準确的得到時序行為片段的類别資訊。這裡通常都會使用行為識别中的一些方法與模型。

時序行為檢測的資料庫也有很多,下面主要介紹幾個常用的主流資料庫:

THUMOS 2014:該資料集即為THUMOS Challenge 2014,位址為crcv.ucf.edu/THUMOS14/。該資料集包括行為識别和時序行為檢測兩個任務。它的訓練集為UCF101資料集,包括101類動作,共計13320段分割好的視訊片段。THUMOS2014的驗證集和測試集則分别包括1010和1574個未分割過的視訊。在時序行為檢測任務中,隻有20類動作的未分割視訊是有時序行為片段标注的,包括200個驗證集視訊(包含3007個行為片段)和213個測試集視訊(包含3358個行為片段)。這些經過标注的未分割視訊可以被用于訓練和測試時序行為檢測模型。實際上之後還有THUMOS Challenge 2015,包括更多的動作類别和視訊數,但由于上面可以比較的方法不是很多,是以目前看到的文章基本上還是在THUMOS14上進行實驗。

End-to-end learning of action detection from frame glimpses in videos (CVPR2016)

這篇文章是李飛飛實驗室的工作。這篇文章使用強化學習的方法訓練了一個基于RNN的代理(agent,不太确定應該怎麼翻譯)。這個agent不斷觀察視訊幀并不斷決定接下來要看哪裡以及什麼時候要生成一個動作預測。與後面很多基于proposal的方法不同,該方法是end-to-end且是直接生成行為預測的。

該方法在THUMOS14上的mAP為17.1%(重疊度門檻值取0.5)

Video Analysis 相關領域解讀之Temporal Action Detection

Temporal Action Localization with Pyramid of Score Distribution Features (CVPR2016)

該方法在特征方面使用了傳統的iDT特征。簡單來說,該方法基于iDT特征對視訊提取了一種分數分布金字塔特征(Pyramid of Score Distribution Feature, PSDF).之後再使用了LSTM網絡對PSDF特征序列進行處理,并根據輸出的frame-level的行為類别置信度分數處理得到行為片段的預測。

PSDF方法效果還是不錯的,表明傳統特征其實也還有一戰之力。但是iDT特征的提取實在是太耗時/耗儲存空間了。(iDT特征的大小要比原始視訊的大小都要大很多)。個人認為用iDT特征做行為檢測的前景不大。

該方法在THUMOS14上的mAP為18.8%(重疊度門檻值取0.5)

Video Analysis 相關領域解讀之Temporal Action Detection

Temporal action localization in untrimmed videos via multi-stage cnns (CVPR2016)

該方法實際上采用了類似于R-CNN的思路,後面有不少文章也采用了類似的思想,即先提proposal,再分類。

該方法在THUMOS14上的mAP為19.0%(重疊度門檻值取0.5)

Video Analysis 相關領域解讀之Temporal Action Detection

Efficient Action Detection in Untrimmed Videos via Multi-Task Learning (WACV2016)

這篇文章實際上是将SCNN的多階段網絡放到了一個網絡裡面去,通過共享前面的卷積層,加快了算法的速度。但從效果上看,基本與SCNN完全相同。感覺算是SCNN的完善版本。

該方法在THUMOS14上的mAP為19.0%(重疊度門檻值取0.5).其餘重疊度門檻值下的表現也與SCNN基本一緻。

Video Analysis 相關領域解讀之Temporal Action Detection

這兩年時序行為檢測領域發展的非常快,相對于目标檢測來說,時序行為檢測這個方向做的人相對還是比較少,有很大的發(水)展(paper)空間。但一個很大的問題是處理視訊資料計算量很大,是以這方面的研究很受硬體條件的影響,羨慕大佬們論文中各種四路titan,四路k40的配置啊。之後會再專門寫筆記介紹CVPR2017中該領域的進展情況。

原文釋出時間為: 2017-04-26

本文作者:林天威編譯

本文來自雲栖社群合作夥伴極市網,了解相關資訊可以關注極市網。