天天看點

基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓

作者:月亮灣探險家

基于注意力機制和殘差網絡的視訊行為識别研究有何進展?

在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓練時間較長且效果不佳,且易發生過拟合。該文通過對比不同層數的殘差網絡最後標明ResNeXt101層殘差網絡。

為了在降低模組化複雜度的前提下,也能提高識别的準确率,該模型增加了注意力機制來增強特征表示和穩健性。首先,使用pytorch架構,在UCF-101和HMDB-51通用資料集上完成了對Kinetics預訓練模型的訓練和調試。

測試效果的評判主要包括識别率和損失函數值兩個方面的綜合考量。實驗結果表明,ResNeXt3維模型在保持較高識别率的同時,訓練時間也縮短了很多。

ResNet網絡可以有效地防止傳統的卷積神經網絡在資訊傳輸中出現的丢失和損失,進而確定了圖像特征資訊的完整性。

該網絡的基礎結構是以VGG的疊加原理和Inception的split-transform-merge思想為基礎,其拓展能力更強,可以確定模型的複雜性不會下降或者不會發生變化,并且模型的精确度也得到了改善。

圖1(a)顯示了ResNet的網絡結構,圖1(b)是ResNeXt的網絡結構。如圖1所示,左右結構複雜度大緻相同。

引入注意力機制,可以在獲得更全面特征資訊的同時,也能減輕較低層次因感受野較小導緻無法獲得更多人體行為特征資訊的問題。注意力機制模型主要包括通道注意力機制與空間注意力機制(見圖2)。

引入了注意力機制,通過給各個通道設定不同的權重,剔除掉了一些沒有意義的資訊,更加注重動作識别,增強對特定特征資訊的提取效果。

在整個網絡模型訓練過程中,設定每次的訓練疊代次數為200次,批處理量為32。設定最初的學習率為0.001,每疊代50次後,其自動縮小為原來的1/10,直到訓練結束。

每疊代一次結束後都會直接進行一次校驗,并分别記錄驗證集上的識别準确率和損失函數值,取最好的成績作為模型評估的依據。圖3是該文所使用的殘差子產品的結構。

ResNeXt網絡結構采用一個拓撲相同的平行塊重疊起來,對資料包進行分組卷積,能保證不增加網絡參數複雜度的同時有效提高網絡的識别準确度。第一層和最後一層采用1*1*1的卷積核,進而減少了總的參數量。

UCF-101是當下行為類别和樣本數量最大的真實動作識别資料集之一,其視訊資料主要是從YouTube收集的101個動作類型和13320種視訊。

其中101個動作類型又被分為25個系列,每個系列包括4~7個相關的視訊錄像,主要包括人與物的互動、人與人的互動、人體自身的行為、演奏樂器和做運動五種類别。

動作包括跳遠、騎車、彈鋼琴、寫字、跳高等。但是,同一系列的視訊也會有某些共性,比如背景、視角、照明條件等。部分動作幀如圖4所示。

HMDB-51[17]是2011年BrownUniversity大學公布的一個用于識别确定人的行為類型的資料集。

它共分為51個動作類别,每類包含至少有101個片段,總共含有6849個視訊片段。五種主要的動作行為有,一般的臉部行為、臉部操作、對象的行為、一般身體行為、肢體與對象的互動動作和人體自身姿勢行為,例如吸煙、揮手、翻轉、走路、擊打等。部分動作幀如圖5所示。

該文利用Kinetics的預訓練模型,實作在UCF-101和HMDB-51資料集上的遷移學習。随着疊代次數的增大,該模型的識别準确率逐漸提升,同時損失率也在下降。圖6為該模型在UCF-101資料集上疊代100次的整個過程。

對于不同深度的模型,利用相同的目标樣本訓練更新頂層卷積層和分類層的權重參數,總的疊代次數均為200,将各模型的訓練時間和驗證集上的最大精準度作為評估模型的性能名額,結果如表1所示。由表1可得,随着層數加深,準确率有所上升。

加入注意力機制後,加強對前後視訊幀的關聯,使得提取到的視訊特征更加完全,具體實驗結果如表2所示。由此可證明,加入注意力機制後,加深了對動作特征的提取,準确率有了明顯的提升。

通過與改進後的密集軌迹iDT算法、雙流法Two-Stream以及C3D算法三種傳統算法,并且與最近兩年利用殘差網絡進行人體識别的相關文獻中的算法進行對比實驗,結果如表3所示。由對比結果可知,該模型的識别準确率更高,泛化性更好。

該文提出了一種融合注意力機制的殘差三維網絡模型用以識别視訊中的人體行為。在當下較流行的行為識别資料集上,首先進行殘差網絡層數的對比實驗,然後標明ResNeXt101層作為該殘差三維網絡結構的殘差塊,保證了深層網絡提高識别率的同時也避免發生過拟合。在此基礎上,引入了注意力機制使殘差3D卷積結構學習到的各個特征通道賦予不同的權重,加強對重要特征的提取。

基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓
基于注意力機制和殘差網絡的視訊行為識别研究有何進展? 在衆多視訊行為識别模型中,雙流法無法實作端到端的識别,利用C3D訓

繼續閱讀