天天看點

論文筆記《Hand Gesture Recognition with 3D Convolutional Neural Networks》

一、概述

  Nvidia提出的一種基于3DCNN的動态手勢識别的方法,主要亮點是提出了一個novel的data augmentation的方法,以及LRN和HRn兩個CNN網絡結合的方式。

  3D的CNN主要是使用了三維的卷積核去處理視訊序列,是視訊分析中常用的方法之一。

  這裡是可以識别手語這種動态連續的手勢的。

  

二、亮點

  首先..竟然沒有state of art...

  1、預處理:因為輸入是連續的視訊序列,是以需要對他們進行規範化,這裡用nearest neighbor interpolation的方法來删除或者重複一些frame,來做出一個32frames的視訊序列,然後做了一系列的預處理工作,用sobel算子得到梯度圖啊,downsampling之類的,最後CNN的inputs是 57*125*32大小的梯度圖和深度圖交錯的視訊序列。

  2、分類:用了兩個CNN網絡,hign-resolutin network 和low-resolution network,他們分别有一個參數W,兩個的差別是,第一個就是正常的前面描述的網絡,後面一個是28*62*32的一個input的網絡,最後的結果是兩個預測的成績,這裡運用了多空間尺度,是以泛化能力得到了提高。

  3、optimation:cost function用了負的log-likelihood,優化用的是Nesterov accelerated gradient,參數設定的方法也是比較新的..具體名字忘了,反正就是對于防止方差過大有很好的抑制作用。

  4、data augmentation:因為是視訊序列,是以在時間和空間上做了很多操作,具體可以看論文,這個工作是他們的核心,但暫時不是我個人關注的重點,因為我覺得這個從學術上看,隻能說是個不錯的trick吧。

三、結論

  兩個網絡的fusion我覺得是個很好的想法,或許以後還有進一步的想象空間,data augmentation也确實是提高泛化能力的一個不錯的方法。

繼續閱讀