天天看點

視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016](TSN網絡)

概括:

為了解決長序列的視訊行為識别問題,将長序列切分成短序列并從中随機選擇部分,作為雙流網絡的輸入,采用多個這樣的雙流網絡,最後将各個子網絡的得分值進行均值融合得到最終結果。

#####介紹:

(1)對于長序列的學習能力在了解視訊行為上具有重要意義,但是主流的雙流法和C3D通常隻是聚焦于表面或者是短時間序列的學習(C3D的輸入是連續的16幀,而雙流法是依靠前後兩幀計算出來的光流)。Long-term temporal convolutions for action recognition.[2016]、Beyond short snippets: Deep networks for video classification.[CVPR2015]、Long-term recurrent convolutional networks for visual recognition and description[CVPR2015]等文章通過預定義的采樣間隔進行稠密時序采樣解決這種問題,但是卻增大了計算量。

(2)卷積神經網絡訓練需要大量的資料,否則容易過拟合,公開資料集UCF101和HMDB51在尺寸和多樣性上不足。在圖像識别中非常深的網絡,例如Very deep convolutional networks for large-scale image recognition. [[ICLR2015]和Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015],在視訊行為識别中可能存在較高的過拟合風險。

(3)連續視訊幀具有高度備援性(相鄰動作間的相似性極大)。TSN在長的視訊序列上均勻的抽取短的序列,然後在聚合這些資訊,這樣TSN能夠模拟長的視訊。

(4)為了釋放該網絡的潛力,使用了非常深的網絡Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015]和Very deep convolutional networks for large-scale image recognition. [[ICLR2015],探索了一些方法去使用少量的樣本就可以進行訓練。例如:資料增強、 跨模态預訓練、 正則化。

You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images. In: CVPR

相關工作:

(卷積方法)除了經典的C3D和雙流以外,Human action recognition using factorized spatio-temporal convolutional networks.疊加RGB差分的視訊作為輸入。相似的采用長視訊(固定視訊輸入的長度在64到120,但是TSN由于稀疏采樣沒有這種限制)輸入的有Beyond short snippets: Deep networks for video classification. In: CVPR. (2015);Long-term temporal convolutions for action recognition. 2016;Long-term recurrent convolutional networks for visual recognition and description. In: CVPR. (2015) 。

(時序結構模型)原子時序模型(Temporal localization of actions with actoms. IEEE2013;人體骨骼模型

#####細節

視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

一個長視訊被分解成k個片段(相等間隔),從每一個片段中随機選擇一幀,不同的片段得到的結果通過一緻性函數産生最終結果(一個視訊級别的預測,一段視訊給出一個結果)

視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

函數F表示對使用卷積網絡作用于視訊片段T得到一個片段各個類别的得分值

函數G表示對整個各個片段的得分值進行一緻性選擇,得到一緻意見(最終選擇的是對各個類别的得分值直接求均值)

函數H将各個類别的得分值裝換成機率值(這裡使用的是softmax)

下面是損失函數的設計:

視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

沒看懂,文章說是使用标準的交叉熵損失。這裡G是一個得分值,不應該先轉換成機率值嗎?然後括号裡面對其所有的類别進行exp後又進行相加?那麼,這樣不同的類别後面這部分就是一個常量了。

使用Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015](BN-Inception)作為網絡架構的雙流法。在雙流法中,空間網絡輸入都是RGB圖像,而時序網絡的輸入是光流或者堆疊光流場,作者在文章中提出探索了兩種額外的模式,RGB差分和扭曲光流場(wraped optical flow fields)。實驗表明,扭曲光流場更加專注于移動者本身,是以采用這種輸入。

測試的時候在雙流融合階段,使用權重平均的方式進行融合。

測試
視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

四種訓練模式,第一行:原始雙流網絡;第二行,從頭開始;第三行:預訓練空間流;第四行:交叉模式預訓練;第五行:交叉預訓練和部分BN dropout相結合。

視訊行為識别閱讀[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

繼續閱讀