天天看點

論文筆記《Tracking Using Dynamic Programming for Appearance-Based Sign Language Recognition》

一、概述

    這是我在做手勢識别的時候,在解決手勢畫面提取的時候看的一篇paper,這裡關鍵是使用了動态規劃來作為跟蹤算法,效果是可以比拟cameshift和kf的,但在occlusion,gaps或者離線tracking的時候做的很好。 

二、算法步驟

  step1:對于時間的t的frame如X_t的每個pixel(x,y),首先計算出一個score q(t,x,y),稱為local score,這個後面會說,score function是由你自己來選擇的,然後需要算出一個Q(t,x,y),也就是global score,Q(t,x,y)是截止到時間t的(x,y)處的best tracking的分數總和(個人了解就是最大的score的路徑的選擇),是以這裡用了dp 的思想,也就是對于Q(t,x,y),它的最優值,基本上肯定是由Q(t-1,x',y')過來的,x',y'是x,y的neighborhood。

      

論文筆記《Tracking Using Dynamic Programming for Appearance-Based Sign Language Recognition》

  這裡對照論文的兩個公式基本可以看明白,然後論文裡面在計算的時候加了L2的正則優化,畢竟優化方法加正則不說說說而已.........原因也很簡單,(x,y)和(x',y')的距離不可能太大,因為物體是連續運動的。

  step2:這裡就是利用上面的得到的Q(t,x,y)和B(t,x,y)來做 traceback,最後reconstruct出來最好的路徑.

  用動态規劃的跟蹤方法有個問題,就是他一般是限定了他的tracking size,不然的話,計算量會很大,是以這裡還提出了兩個trick  

1、一個點(x,y)隻有在滿足 Q(t,x,y) > max(Q(t,x,y))−T0 的時候才被考慮作為t+1時候的

predecessor,這裡T0是一個自己設定的參數

2、利用上面的方法和jump penalty function來做局部調整,這樣可以做到一個adaptive的視窗

論文筆記《Tracking Using Dynamic Programming for Appearance-Based Sign Language Recognition》

三、Score function

  簡而言之就是為你區分image之間的不同的時候選出一個合适function,這裡論文中現提出了一個簡單的Motion information Scor function,這是計算一個size裡面的pixel的value的和。接下來說了Eigenfaces and skin Color Score Function,其實也都隻是你在實際場景的時候一個自己的權衡,後一個的關鍵點就是你可以選擇兩個score function,最後用一個w權重作為超參數來做就行了

四、總結

後面還講了利用HMM做recognition和tracking的融合,說實話,沒看懂...有機會再看看吧。

 

  

繼續閱讀