天天看點

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

      該篇文章為視訊識别十分經典的一篇論文也是入門文章,開創了比較經典的雙流(時間流+空間流)神經網絡,本人發現很多大神部落客翻譯的論文不是特别完整,故按照原文與個人了解整理完整翻譯見下。

摘要:我們研究了用于訓練視訊中行為識别的深度卷積網絡架構。這個挑戰是捕捉靜态幀中的外觀和連續幀間的運動的互補資訊。我們也旨在推廣這個在資料驅動的學習架構中表現得最好的手工特征。

        本文一共做出了3個貢獻:首先,本文一個包含空間和時間網絡的雙流ConvNet體系結構。其次,我們驗證了,盡管是有限的訓練資料集,在多幀密集光流上訓練的卷積網絡仍表現良好。最後,我們展示出,應用于兩個不同的動作分類資料集的多任務學習,可以同時用來增加訓練資料集的數量和提高性能。

       我們的架構是在标準視訊動作資料集UCF-101和HMDB-51上訓練的,它們在競争中處于領先地位。它也超出了先前大部分使用深度網絡對視訊進行分類的方法。

1、介紹

      基于視訊的人體動作識别是一項具有挑戰性的任務,在學術界受到越來越多的關注[11,14,17,26]。與靜态的圖像分類相比,視訊中的時間成分為識别提供了一個額外的(且是重要的)線索,因為一些行為是基于運動資訊才能夠被可靠地識别出來的。此外,對于單個圖像(視訊幀)分類,視訊提供了自然的資料增強(抖動)。

      在這項工作中,我們旨在将深層卷積網絡(ConvNets)[19](一種最先進的靜态圖像表示[15])擴充到視訊資料中的動作識别上。這個任務最近得到了解決[14],我們通過将堆疊的視訊幀作為輸入傳入網絡中,但是結果明顯地比最好的手工制作的特征要差得多[20,26]。我們研究了基于兩個單獨的識别流(空間和時間)的不同架構,然後通過後期融合合并。空間流從靜态的視訊幀中執行行為識别,同時訓練時間流從密集光流形式的運動中以識别行為。兩個流都是用卷積網絡來實作的。去耦合時空網絡允許我們開發大量的已注釋圖像資料的可用性,這些資料是通過空間網絡在ImageNet資料集上預訓練出來的。我們提出的架構與two-streams假設有關,根據該假設,人類視覺皮質包含兩條路徑:腹側流(識别目标)和背側流(識别運動),盡管我們在這裡沒有進一步研究這種聯系。

     本文的其他部分組織如下:在1.1部分,我們回顧了有關使用淺層的、深層的架構的行為識别的相關工作。在第2部分,我們介紹了two-stream架構,并且詳細介紹了空間卷積網絡。在第3部分,介紹了時間卷積網絡,特别是它如何概括了1.1節中所述的先前架構。在第4部分,提出多任務學習架構,使得多個資料集上的訓練資料可以容易的組合。實作細節在第5部分給出。在第6部分進行評估,并與最先進水準進行了比較。我們在兩個挑戰性的資料集(UCF-101和HMDB-51資料集)上的實驗表明兩個識别流是互補的,并且我們的深度架構比Large-scale video classification with convolutional neural networks[14]這篇論文做的要好,并且盡管是在相對較小的資料集上訓練,我們的深度架構與淺層表示[20,21,26]的最先進水準相比也是有競争力的。

1.1 相關工作

       視訊識别研究很大程度上受到圖像識别方法的推動,通常會對其進行修改和擴充以處理視訊資料。很多視訊行為識别的方法是基于局部時空特征的淺層、高維編碼的。例如,Learning realistic human actions from movies[17]這篇論文提出的算法在檢測稀疏時空興趣點,可以描述為使用了局部時空特征:方向梯度直方圖(HOG)和光流直方圖(FOG)。然後這些特征被編碼為Bag Of Features (BoF)表示,它彙集在了幾個時空特征網格上(類似于空間金字塔池化),并且結合了SVM分類器。在一項最近的研究工作中表明[28],局部特征的密集采樣要優于稀疏的興趣點。

   (淺層表示介紹) 最先進水準的淺層視訊表征[20,21,26]利用了密集點軌迹,而不是在時空立方體上計算局部視訊特征。這個方法第一次提出是在Instead of computing local video features over spatio-temporal cuboids[29]這篇論文中,這個方法調整了局部描述符支援域,他們使用了通過光流來計算的密集軌迹。基于軌迹方法的最好性能是由Motion Boundary Histogram (MBH)[8]實作的,這是一個基于梯度的特征,分别計算光流的水準和垂直分量。幾個特征的結合表現出可以進一步提高性能。基于軌迹的手工特征最近的改進包括,全局錄影機動作補償[10,16,26],和使用Fisher vector[22](in [26])編碼或者是更深的變體[23](in [21])。

    (深度架構介紹) 也有很多方法嘗試從深度架構上進行視訊識别。這些工作的大多數,網絡的輸入都是一堆連續的視訊幀,是以,這些模型被期望能夠在第一層隐式學習時空獨立動作特征,這是一個困難的任務。在A biologically inspired system for action recognition[11]這篇論文中,提出了一種用于視訊識别的HMAX架構,在第一層使用了預定義的時空濾波器(filter)。然後,在HMDB: A large video database for human motion recognition[16]這篇論文中,将其與空間HMAX結合,形成空間(類似于腹側)和時間(類似于背側)識别流。然而,這與我們的工作不同,它的流是手工制作實作的,而且是淺層(3層)的HMAX模型。在另外3篇論文中[4,18,25],一個卷積的RBM和ISA被用來無監督地學習時空特征,然後把它推入一個判别模型來進行行為分類。用于視訊的卷積網絡的端到端學習模型已經在論文3D convolutional neural networks for human action recognition[12]中實作,并且最近在論文Large-scale video classification with convolutional neural networks[14]中,比較了幾個用于行為識别的卷積網絡架構。訓練是在一個非常大的Sports-1M資料集上實作的,它包含了110多萬的YouTube的行為類别的視訊。有趣的是,在這篇論文[14]中發現,一個在單個視訊幀上運作的網絡,與輸入是一堆視訊幀的網絡的性能類似。這可能表明,學習到的時空特征不能很好的捕捉到行為資訊。其學到的表示,在UCF-101資料集上微調後,其結果比手工制作的基于軌迹的表示最新技術精度低20%[20,27]。

        我們的時間流卷積網絡在多幀密集光流上運作,其通過解決位移場(特别是多個圖像尺度)在一個能量最小化的架構中進行計算。我們使用了High accuracy optical flow estimation based on a theory for warping[2]中流行的方法,該方法基于強度及其梯度以及位移場的平滑度的恒定假設。最近,DeepFlow: Large displacement optical flow with deep matching[30]論文提出了一個圖像塊更新檔比對方案,這使人聯想到深度卷積網絡,但不包括學習。

2、用于視訊識别的Two-stream架構

          視訊很自然的被拆解為空間和時間部分。在空間部分,以單個幀的外觀形式,傳遞了視訊描繪的場景和目标資訊。在時間部分,以多幀的運動形式,傳遞了觀察者(錄影機)和目标者的運動。我們相應地設計視訊識别架構,如圖1所示,将其分為兩個流。每一個流都由一個深度卷積網絡來實作,最後它們通過softmax進行融合。我們考慮了兩種融合方法:一個是求平均; 另一個則是在多分類線性SVM上訓練,使用L2正則化的softmax計算得分。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

        空間流卷積網絡在單個視訊幀上執行,能有效地在靜止圖像中進行動作識别。其靜态外觀本身就是一個有用的線索,因為有些動作是與特定對象緊密相關。 事實上,如第6部分所述,靜态幀(空間識别流)的動作識别相對其自身是有競争力的。由于空間流卷積網絡本質上是一個圖像分類架構,我們可以依賴于最近的ImageNet classification with deep convolutional neural networks[15]論文中提出的大型圖像識别方法,在大型圖像分類資料集上(例如ImageNet挑戰資料集)預訓練網絡。細節在第5部分給出,接下來我們描述一個時間流卷積網絡,其開發了運動資訊,明顯地提高了準确率。

3、光流卷積網絡

      在這一部分,我們描述一個卷積網絡模型,該模型形成了我們提出的two-stream架構(見第二部分)中的時間識别流。不同于1.1中回顧的卷積網絡模型,我們模型的輸入是幾個相鄰幀之間疊加的光流位移場。這樣的輸入準确地描述了視訊幀之間的運動資訊,這使得識别更加容易,并且網絡不需要估計隐式的運動。我們考慮了幾個基于光流輸入的變體,如下描述所示。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

                                                                                圖2:光流

  1. (a)(b):一對連續視訊幀,用青色矩陣畫出移動手的區域。
  2. (c):在大部分區域的密集光流的特寫。
  3. (d):位移矢量場(強度高相當于正值,強度低相當于負值)的水準分量dx。
  4. (e):垂直分量dy。

    注意d和e是如何突出移動的手和弓。卷積網絡的輸入包含了多個流(見3.1部分)。

3.1 卷積網絡的輸入配置

       光流疊加。 一個密集光流可以看作是在連續的幀t和幀t+1之間的一組位移矢量場dt。我們用dt(u,v)表示在幀t的位置(u,v)的位移矢量,它表示移動到下一個幀t+1相對應的點。矢量場的水準和垂直部分分别是dtx和dty,可以視為圖像的通道(如圖2所示),十分适合使用卷積網絡來識别。為了表示一系列幀之間的運動,我們疊加了L個連續幀的光流通道dtx和dty,形成了2L長度的輸入通道。更正式的說,設定w和h是視訊的寬和高,對于任意幀τ,卷積網絡輸入容量:

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

對于任意點(u.v),通道Iτ(u,v,c),c = [1; 2L]編碼該點的運動在一系列L幀上(如圖3左所示)。

軌迹疊加。 受軌迹描述子的啟發[29],另一個可供選擇的運動表示代替了光流疊加,沿着運動軌迹,在幾個幀的相同位置采樣。在這個情形下,與幀τ對應的輸入容量Iτ,采取下列形式:

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

其中pk是沿着軌迹的第k個點,開始于幀τ的(u,v)位置,并且用以下遞歸方式定義:

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

     比較于輸入容量表示(1),其通道Ιτ(u,v,c)存儲了(u,v)位置的位移矢量,而在輸入容量(2)中,則存儲了沿着軌迹(如圖3右圖所示)在位置pk抽樣的矢量。

圖3: 卷積網絡從多幀光流中的輸入。左:光流疊加在連續多幀的同一個位置的采樣位置矢量。右:軌迹疊加沿着軌迹采樣矢量。幀和與之相對應的位移矢量都用相同的顔色表示。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

雙向光流。 光流表示1和2處理了正向光流,也就是幀t的位移場dt指定了在下一幀t+1處像素的位置。自然地擴充到雙向光流,通過在相反的位置計算一個額外的位移場集合來獲得。我們接着建構了輸入容量Ιτ,通過疊加幀τ到幀τ+L/2之間共L/2個前向流和幀τ-L/2到幀τ至今的L/2個後向流。輸入Ιτ是以與之前的通道(2L)有相同的數量。光流可以使用方法1和方法2中其中任一個來表示。

減去平均光流。 這有利于進行中心為0的網絡輸入,允許模型更好的處理糾正非線性。在我們的案例中,位移矢量場分量可以同時具有正值和負值,自然地集中在各種各樣的運動中,一個方向上的運動與相反的運動。然而,對給定一對架構,它們之間的光流可以由特定的位移來控制,例如由相機的運動引起。錄影機運動補償的重要性已經在先前的論文[10,26]中明顯地提出過,從密集光流中估計并減去全局運動分量。在我們的案例中,我們考慮一個更簡單的方法:在每一個位移場d中都減去它的均值矢量。

架構。上面我們描述了不同的方法來結合多種光流位移場到單個容量 。考慮到卷積網絡要求固定尺寸的輸入,我們從Ιτ中采樣了224x224x2L個副容量,并将其傳遞給網絡作為輸入。隐藏層的配置大部分保留了空間卷積中使用的配置,如圖1所示。測試也類似于空間卷積網絡,細節在第5部分給出。

3.2 時間卷積網絡架構與先前表示的關系

在這一部分,我們将我們的時間卷積網絡架構放在1.1部分回顧的先前技術的環境下,并與視訊表示形式進行連接配接。基于特征編碼的方法[17,29]結合了幾個時空局部特征。這種特征是通過光流計算的,并由我們的時間卷積網絡來推廣。事實上,HOF和MBH局部描述子是基于光流方向或者梯度的直方圖,可以通過位移場的輸出由單個卷積層(包含對方向敏感的濾波器)來獲得,接下來是正則化和池化層。運動學上的特征(散度、旋度和裁剪)也可以通過光流梯度來計算,同樣,也可以通過卷積模型來捕獲。最後,軌迹特征通過疊加沿着軌迹的位移矢量計算獲得,相當于軌迹疊加。在3.3部分,我們可視化了從時間網絡第一層學到的卷積濾波器。這提供了進一步的證據,表明我們的表示具有手工制作的特征。

就深度網絡而言,HMDB: A large video database for human motion recognition[16]論文中一個two-stream視訊識别架構包含了兩個HMAX模型,這些模型是手工制作的,并且比我們的判别式訓練模型的深度要淺一點。這可以看多是HMAX一個可學習的概括。另外兩篇論文中[12,14],并沒有分離時間和空間識别流,而是依賴于從資料中學到的運動敏感卷積濾波器。在我們的案例中,運動被明确表示使用光流位移場來表示,該場基于亮度不變性的假設和光的平滑性來計算的。将這些假設納入ConvNet架構中,也許能夠提高基于端到端基于ConvNet的方法的性能,這是未來研究一個有趣的方向。

3.3學習卷積濾波器的可視化

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

圖4:從10個堆疊的光流中獲悉的第一層卷積濾波器。 可視化分為96列和20行:每列對應一個過濾器,每行–輸入管道。

     在圖4中,我們可視化了在UCF-101資料集上經過訓練的時間ConvNet第一層的卷積濾波器。 96個濾鏡中的每個濾鏡都有7×7像素的空間接收場,并且具有20個輸入通道,對應于水準(dx)和垂直(dy)10個堆疊的元件光流位移場d。

     可以看出,一些過濾器計算光流的空間導數,捕獲運動随圖像位置的變化,進而概括了基于導數的手工描述符(例如MBH)。 其他過濾器計算時間導數,以捕獲運動随時間的變化。

4、多任務學習

       不同于空間流卷積網絡,它可以在大量靜止圖像資料集(例如ImageNet資料集)上進行預訓練,時間卷積網絡需要在視訊資料集上訓練,對于視訊動作識别可用的資料集非常少。在我們的實驗(第6部分)中,在UCF-101和HMDB-51資料集上訓練,分别隻有9500和3700個視訊。為了減少過拟合,考慮将兩個資料集結合成一個,然而由于類集之間的交集,這并不簡單。一個選項(稍後我們将對此進行驗證)是從類别中添加沒有出現在原始資料集的圖像。然而,這要求對每個類别進行人工檢索,并且限制了可訓練資料的數量。

      一個更強的結合資料集的方法是基于多任務學習。它旨在學習(視訊)表示法,不僅可以适用于有關任務(例如HMDB-51分類),也适用于其他任務(如UCF-101分類)。額外的任務充當規則者,并允許利用額外的訓練任務。在我們的案例中,對ConvNet架構進行了修改,在最後一層全連接配接層的頂部有兩個softmax分類層,一個softmax計算HMDB-51分類的分數,另一個計算UCF-101的分數。每一層都配有自己的損失函數,隻在各自資料集的視訊資料上操作。總體的訓練損失被計算為單個任務損失的總和,通過後向傳播計算網絡權重。

5、實作細節

卷積網絡配置。 我們的空間和時間卷積網絡的每一層配置如圖1所示。它對應于Return of the devil in the details: Delving deep into convolutional nets[3]論文中的CNN-M-2048架構,類似于Visualizing and understanding convolutional networks[31]論文中的網絡。 所有隐藏的權重層都使用了RELU激勵函數;池化層使用最大池化,視窗為3X3,步長為2;局部反應歸一化使用如ImageNet classification with deep convolutional neural networks[15]論文中的設定。在空間和時間卷積網絡中唯一不同的配置是我們去除了時間網絡中第二次歸一化,以便減少記憶體消耗。

訓練。 訓練流程可以視為是對ImageNet classification with deep convolutional neural networks[15]相對于視訊幀的一個改動,并且對時間和空間網絡都是相同的。使用mini-batch随機梯度下降(其動量為0.9)學習網絡權重。在每個疊代中,一個mini-batch含有256個樣本,通過采樣256個訓練視訊(對每個類别都一緻)獲得,其中的單個幀都是随機選擇的。在空間網絡訓練時,從選擇的幀中随機截取224x224的子圖;然後對其進行随機水準翻轉和RGB抖動。視訊事先經過調整,是以幀最小的邊等于256。我們與ImageNet classification with deep convolutional neural networks不同,子圖是從整個幀中采樣的,而不是選取了256x256的中心。在時間網絡訓練時,我們對在第3部分描述的每一個選擇的訓練幀,計算了光流容量Ι。從這個容量中,随機裁剪和翻轉一個固定尺寸224x224x2L的輸入。學習速率初始化為0.01,然後根據固定的順序減少,在所有的訓練集上都保持相同。也就是說,當從頭訓練一個卷積網絡時,在5萬次疊代後速率給變為0.001,在7萬次疊代後速率變為0.0001,最終在8萬次疊代後訓練停止。在微調階段,在14000次疊代後速率變為0.001,在2萬次疊代後訓練停止。

測試。 在測試時,對于給定視訊,我們采樣了固定數量(在我們的實驗中是25)的幀,這些幀之間的時間間隔相等。對于其中的每個幀,通過裁剪和翻轉幀的四個角和中心,我們獲得了卷積網絡的10個輸入[15]。對于整個視訊的類别分數,通過計算每個幀和翻轉後的幀的分數平均來得到。

在ImageNet ILSVRC-2012上預訓練。當預訓練空間卷積網絡時,我們使用與向前描述同樣的資料增加方式(裁剪、翻轉、RGB抖動)。在ILSVRC-2012驗證資料集上獲得了13.5%的top5誤差,在Visualizing and understanding convolutional networks[31]論文中類似的網絡得到了16%的誤差。我們相信改進的主要原因是卷積網絡的采樣輸入是來自于整個圖像,而不是僅從其中心采樣ConvNet輸入。

多GPU訓練。 我們是在公共工具CAFFE上實作的[13],但包含許多重大修改,包括在多個GPU上并行訓練,而不是在一個系統下訓練。我們利用資料并行性,将每個SGD批處理為多個GPU。訓練單個時間卷積網絡,在一個有4個NVIDIA顯示卡的系統上要花費1天,這比單GPU的訓練快了3.2倍。

 光流。 使用opencv工具中現成的GPU來實作計算[2]。盡管計算時間很快(每對幀0.06秒),但在實際運作時仍然是一個瓶頸,是以我們在訓練前提前計算了光流。為了避免存放位移場為浮點,光流的水準和垂直分量呈線性擴充到[0,255]的範圍(解壓縮後,對流進行重新縮放回到原始範圍),并使用了JPEG進行了壓縮。這将UCF-101資料集光流的大小從1.5TB減少到了27GB。

6、驗證

資料集和驗證協定。 驗證是在UCF-101[24]和HMDB-51[16]的動作識别基準進行的,這是最大的可用注釋視訊資料集1之一。UCF-101包含了13000個視訊(每個視訊平均有180幀),被分為101個類别。HMDB-51資料集包含了6800個視訊,共51個類别。兩個資料集的驗證協定是相同的:組織者将資料集分成了3個分片,訓練資料、測試資料和計算平均分類正确度的性能的分片。每一個UCF-101分片都包含了9500個訓練視訊;一個HMDB-51分片包含3700個訓練視訊。我們首先在UCF-101資料集的第一個分片上比較了不同的架構。對于與先進水準的比較,我們遵循标準的驗證協定,各自在UCF-101和HMDB-51的3個分片上計算了平均準确度。

空間卷積網絡。 首先,我們測量了空間流卷積網絡的準确性。考慮以下3個情境:(1)在UCF-101資料集上從頭訓練。(2)在ILSVRC-2012預訓練後,在UCF-101上進行微調。(3)保持預訓練網絡固定,隻訓練最後一層(分類)。對于每一個設定,我們都通過dropout正則化率0.5到0.9進行了實驗。結果展現在表1(a)中,很明顯,單獨的在UCF-101資料集上訓練導緻了過拟合(即使是很高的dropout),并且要差于在ILSVRC-2012資料集上的預訓練。有趣的是,微調整個網絡僅比訓練最後一層稍微好那麼一點。在下面的實驗中,我們選擇隻訓練預訓練卷積網絡前的最後一層。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

時間卷積網絡。 在已經驗證了空間卷積網絡的變體之後,我們現在轉向時間網絡架構,評定了如3.1部分描述的輸入配置的影響。特别地,我們計算了以下效果:使用多個(L={5,10})疊加光流;軌迹疊加;平均位移差;使用雙向光流。架構在UCF-101資料集上從頭訓練,是以我們使用了dropout正則化率0.9來提高泛化能力,結果在表1(b)中顯示。首先,我們可以推斷,在輸入中疊加多個(L>1)位移場是非常有效的,因為它提供給網絡長遠的動作資訊,比一個幀對(L=1)的光流更有差別性。輸入流的數量從5提高到10導緻了一個較小的改進,是以我們在接下來的實驗中将L固定為10。第二,我們發現平均消去是有用的,它減少了幀間的全局動作的影響, 我們在接下來的實驗中預設使用。不同疊加技術上的差別是較小的;結果是光流疊加比軌迹疊加的效果要好,并且使用雙向光流要比使用單向前向光流好一點點。最後,我們注意到,時間卷積網絡明顯優于空間卷積網絡(表1a),這證明了在動作識别中運動資訊的重要性。

     我們還實作了[14]的“慢融合”架構,這相當于運用了一組RGB幀到卷積網絡中(本例中為11幀)。當從頭訓練UCF-101資料集時,實作了56.4%的準确率,這比從頭訓練單幀架構要好(52.3%),但距離光流從頭開始訓練的網絡仍然相距甚遠。這表明了多幀資訊的重要性,同樣重要的是以一種合理的方式呈現給卷積網絡。

 時間卷積網絡的多任務學習。由于訓練集較小,在UCF-101資料集上訓練時間卷積網絡是比較有挑戰性的。一個更大的挑戰是在HMDB-51資料集上訓練卷積網絡,每個訓練片比UCF-101小了2.6倍。這裡,我們驗證了用于增加HMDB-51的有效訓練集大小不同的選項:(1)微調在UCF-101上預訓練的時間網絡;(2)從UCF-101中添加78個通過手工篩選的類别,是以,這些類與本機HMDB-51類之間不會有交集;(3)使用多任務規劃(第4部分所述),以學習視訊表示形式,在UCF-101和HMDB-51分類任務上共享。結果展示在表2中。如預期的那樣,使用全部的(所有分片結合)UCF-101資料來訓練(不管是借用圖像還是隐式地預訓練)是有用的。 多任務學習表現最佳,因為它允許訓練過程中利用所有可用的訓練資料。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

   我們還通過訓練網絡對UCF-101資料集進行了多任務學習實驗

同時對完整的HMDB-51資料(所有分片結合)和UCF-101資料(單個分片)進行分類。在UCF-101的第一個分片上,準确率為81.5%,之前同樣的設定實作了81.0%,但無需執行其他HMDB分類任務(表1b)。

Two-stream卷積網絡。 這裡我們驗證了完整的two-stream模型,其結合了兩個識别流。結合網絡的一個方法是,在兩種網絡的6層或7層後,訓練一個全連接配接層共同的疊加。然而在我們的情境下這樣是不可行的,會導緻過拟合。是以,我們使用平均或線性SVM融合Softmax分數。從表3中我們可以得出結論: (1)時間和空間識别流是互補的,他們的融合明顯的提高了彼此(時間網絡上提高了6%,空間網絡上提高了14%)。(2)基于SVM的softmax計分融合要比平均融合做的要好。(3)使用雙向流對于卷積網絡的情況沒有益處。(4)使用多任務訓練的時間卷積網絡要比單獨或者是融合一個空間網絡的性能都要好。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

與最先進水準的對比。 通過在UCF-101和HMDB-51的3個分片上進行了與最先進水準的比較,總結了實驗的驗證。我們使用了一個在ILSVRC預訓練的空間網絡,其最後一層是在UCF或HMDB上訓練的。時間網絡是在UCF或HMDB上使用多任務訓練的,輸入是使用平均消去的單向光流疊加計算的。兩個網絡的softmax分數會使用平均或者SVM來計算。在表4中可以看到,我們單獨的的空間和時間網絡都比另外兩篇論文[14,16]中的深度網絡要大幅度提高很多。兩個網絡的結合進一步提高了結果(與上面在單個分片上的結果一緻),堪比最近最先進水準的手工制作模型。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

混合矩陣和每類UCF-101分類的召回率。在圖5中,我們顯示了使用我們的兩流模型進行UCF-101分類的融合矩陣,在第一個資料集拆分上(表3的最後一行)其準确度達到87.0%。 我們還可視化了圖6中相應的每類召回。最差的召回類别對應于Hammering類别,後者與Head Massage和Brushing Teeth類。 我們發現這是由于兩個原因。 首先,空間卷積網絡弄混了Hammering 和 Head Massage,這可能是由于在兩個類中人臉的大量存在造成的。 其次,時空的卷積網絡将Hammering與Brushing Teeth混淆了,因為兩者動作包含重複的動作模式(手向上和向下移動)。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

7、結論和改進方向

我們提出一個深度視訊識别模型,其性能具有競争性,它分别由基于卷積網絡的時間和空間識别流組成。目前,在光流上訓練時間卷積網絡要比在原始連續幀上訓練要好的多[14]。後者或許更具有挑戰性,可能需要更改架構(比如,與DeepFlow: Large displacement optical flow with deep matching[30]論文的深度比對方法結合)。盡管使用光流作為輸入,我們的時間模型并不需要大量的手工制作,因為光流可以使用基于通用的不變性假設和平滑性來計算得到。

正如我們所展示的,額外的訓練資料對我們的時間卷積網絡是有益的,是以我們計劃在大型資料集上訓練它,例如Large-scale video classification with convolutional neural networks[14]論文最近釋出的資料集。然而,由于這是一個龐大的資料集(TB以上)是以是一個巨大的挑戰。

我們的網絡仍然錯過了一些最先進水準的淺層表示的有用材料[26]。最突出的一個就是,以軌迹為中心,在時空管道上的局部特征池化。即使是輸入(2)沿着軌迹捕捉了光流,在我們的網絡中空間池化并沒有将軌迹考慮在内。另一個潛在的改進可能是錄影機運動的明确處理,在我們的實驗中使用了平均位移消去法進行了補償。

譯:Two-stream convolutional networks for action recognition in videos1、介紹1.1 相關工作2、用于視訊識别的Two-stream架構3、光流卷積網絡4、多任務學習5、實作細節6、驗證

參考文獻

[1] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge (ILSVRC), 2010. URL

http://www.image-net.org/challenges/LSVRC/2010/.

[2] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracy optical flflow estimation based on a theory for warping. In Proc. ECCV, pages 25–36, 2004.

[3] K. Chatfifield, K. Simonyan, A. Vedaldi, and A. Zisserman. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.

[4] B. Chen, J. A. Ting, B. Marlin, and N. de Freitas. Deep learning of invariant spatio-temporal features from video. In NIPS Deep Learning and Unsupervised Feature Learning Workshop, 2010.

[5] R. Collobert and J. Weston. A unifified architecture for natural language processing: deep neural networks with multitask learning. In Proc. ICML, pages 160–167, 2008.

[6] K. Crammer and Y. Singer. On the algorithmic implementation of multiclass kernel-based vector machines. JMLR, 2:265–292, 2001.

[7] N. Dalal and B Triggs. Histogram of Oriented Gradients for Human Detection. In Proc. CVPR, volume 2, pages 886–893, 2005.

[8] N. Dalal, B. Triggs, and C. Schmid. Human detection using oriented histograms of flflow and appearance. In Proc. ECCV, pages 428–441, 2006.

[9] M. A. Goodale and A. D. Milner. Separate visual pathways for perception and action. Trends in Neurosciences, 15(1):20–25, 1992.

[10] M. Jain, H. Jegou, and P. Bouthemy. Better exploiting motion for better action recognition. In Proc. CVPR, pages 2555–2562, 2013.

[11] H. Jhuang, T. Serre, L. Wolf, and T. Poggio. A biologically inspired system for action recognition. In Proc. ICCV, pages 1–8, 2007.

[12] S. Ji, W. Xu, M. Yang, and K. Yu. 3D convolutional neural networks for human action recognition. IEEE PAMI, 35(1):221–231, 2013.

[13] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe. Berkeley vision.org/, 2013.

[14] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classififi- cation ith convolutional neural networks. In Proc. CVPR, 2014.

[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classifification with deep convolutional neural networks. In NIPS, pages 1106–1114, 2012.

10[16] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre. HMDB: A large video database for human motion recognition. In Proc. ICCV, pages 2556–2563, 2011.

[17] I. Laptev, M. Marszałek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In Proc. CVPR, 2008.

[18] Q. V. Le, W. Y. Zou, S. Y. Yeung, and A. Y. Ng. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In Proc. CVPR, pages 3361–3368, 2011.

[19] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.

[20] X. Peng, L. Wang, X. Wang, and Y. Qiao. Bag of visual words and fusion methods for action recognition:

Comprehensive study and good practice. CoRR, abs/1405.4506, 2014.

[21] X. Peng, C. Zou, Y. Qiao, and Q. Peng. Action recognition with stacked fifisher vectors. In Proc. ECCV, pages 581–595, 2014.

[22] F. Perronnin, J. S anchez, and T. Mensink. Improving the Fisher kernel for large-scale image classifification.

In Proc. ECCV, 2010.

[23] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep Fisher networks for large-scale image classifification. In NIPS, 2013.

[24] K. Soomro, A. R. Zamir, and M. Shah. UCF101: A dataset of 101 human actions classes from videos in the wild. CoRR, abs/1212.0402, 2012.

[25] G. W. Taylor, R. Fergus, Y. LeCun, and C. Bregler. Convolutional learning of spatio-temporal features. In Proc. ECCV, pages 140–153, 2010.

[26] H. Wang and C. Schmid. Action recognition with improved trajectories. In Proc. ICCV, pages 3551–3558, 2013.

[27] H. Wang and C. Schmid. LEAR-INRIA submission for the THUMOS workshop. In ICCV Workshop on Action Recognition with a Large Number of Classes, 2013.

[28] H. Wang, M. M. Ullah, A. Kl aser, I. Laptev, and C. Schmid. Evaluation of local spatio-temporal features for action recognition. In Proc. BMVC., pages 1–11, 2009.

[29] H. Wang, A. Klaser, C. Schmid, and C.-L. Liu. Action recognition by dense trajectories. In Proc. CVPR, pages 3169–3176, 2011.

[30] P. Weinzaepfel, J. Revaud, Z. Harchaoui, and C. Schmid. DeepFlow: Large displacement optical flflow with deep matching. In Proc. ICCV, pages 1385–1392, 2013.

[31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901, 2013.

繼續閱讀