論文筆記《Hand Gesture Recognition with 3D Convolutional Neural Networks》

2016-08-25 17:23:00

一、概述

　　Nvidia提出的一種基于3DCNN的動态手勢識别的方法，主要亮點是提出了一個novel的data augmentation的方法，以及LRN和HRn兩個CNN網絡結合的方式。

　　3D的CNN主要是使用了三維的卷積核去處理視訊序列，是視訊分析中常用的方法之一。

　　這裡是可以識别手語這種動态連續的手勢的。

二、亮點

　　首先..竟然沒有state of art...

　　1、預處理：因為輸入是連續的視訊序列，是以需要對他們進行規範化，這裡用nearest neighbor interpolation的方法來删除或者重複一些frame，來做出一個32frames的視訊序列，然後做了一系列的預處理工作，用sobel算子得到梯度圖啊，downsampling之類的，最後CNN的inputs是 57*125*32大小的梯度圖和深度圖交錯的視訊序列。

　　2、分類：用了兩個CNN網絡，hign-resolutin network 和low-resolution network，他們分别有一個參數W，兩個的差別是，第一個就是正常的前面描述的網絡，後面一個是28*62*32的一個input的網絡，最後的結果是兩個預測的成績，這裡運用了多空間尺度，是以泛化能力得到了提高。

　　3、optimation：cost function用了負的log-likelihood，優化用的是Nesterov accelerated gradient，參數設定的方法也是比較新的..具體名字忘了，反正就是對于防止方差過大有很好的抑制作用。

　　4、data augmentation：因為是視訊序列，是以在時間和空間上做了很多操作，具體可以看論文，這個工作是他們的核心，但暫時不是我個人關注的重點，因為我覺得這個從學術上看，隻能說是個不錯的trick吧。

三、結論

　　兩個網絡的fusion我覺得是個很好的想法，或許以後還有進一步的想象空間，data augmentation也确實是提高泛化能力的一個不錯的方法。

論文筆記《Hand Gesture Recognition with 3D Convolutional Neural Networks》

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡