天天看點

<Fast Tracking via Spatio-Temporal Context Learning> 閱讀和算法使用總結

     下面寫的是針對<Fast Tracking via Spatio-Temporal Context Learning>這篇文章的個人了解。關于文章算法裡詳細的講解,可以看文章後面的附錄。    a. 論文的亮點:        這篇文章最吸引眼球的莫過于算法的超高運作效率:matlab代碼居然在i7處理器上能夠達到驚人的350FPS。算法的執行效果由于ECCV上發表的文章,估計也不會差到哪裡去,恕我識淺。        另外一個大的亮點就是他這篇論文的核心公式:                                                                                     m(x) = p(x|o);   (m(x)表示的是預測目标位置的置信圖,p(x|o)表示的是目前幀目标位置的相似性機率估計函數,x表示目前幀中的目标坐标,o表示的是目标一定要在視場中的這個大前提)。   這個公式對我而言有點莫名其妙,隻是往文章後面看,才會漸漸了解它的作用。本質的意義也許非常明顯,因為相似性機率大的坐标位置即是置信圖上置信度最大的坐标位置,也即是跟蹤的實際目标位置,真是有點讓人腦洞大開。整篇文章都是依據這個公式來延展開來。

   b. 論文的缺陷:         這類論文的一個明顯的缺陷就是在一兩個公式裡面的經驗常數(  ρ 和 σ),作者沒有将這些經驗常數調制的效果和效果背後因果關系一一說明清楚。這将導緻算法的以後的使用範圍不會特别廣泛。  譬如說: 我随便選擇了一個視訊來測試這個算法,效果是跟蹤末期出現了縮放異常和跟蹤中心點漂離了實際目标中心位置。但是我到現在都不是非常清楚應該怎樣調制以得到我想要的效果。            c. 論文的中心思想、主體架構、核心公式,測試出來的效果和對應的需要解釋的問題:         中心思想:          文章的中心思想我了解的就是目标中心坐标既是置信圖中值最大的點坐标值,也是讓預判目标位置的相似性機率函數值最大的點坐标值。           使用到了 spatial temporal model 和 spatio context model。 Spatial temporal model 中由于使用到了目前幀和曆史幀的資訊,是以命名中多了一個temporal。但是這個model中的學習參數 大小設定的機理還沒有弄懂,也不清楚文章裡面說的為什麼  ρ  設定多小,目前幀的貢獻比例都不會太大。但是關于這個模型公式的疊代性正好符合了前後幀之間的關聯性。       Spatio context model 是變換為頻域的目前置信圖除以權重後的目标附近區域圖像的頻域圖像得到的。也就是核心公式的逆運用。        主體架構:          a. 由目前的confidence map(CM)生成當下的目标中心坐标pos;              b. 由pos得到目标附近區域(focus of attention,FOA),并由confidence map除以這個FOA得到了 spatio context model(SPM);          c. 由  spatio context model 和  confidence map得到了 Current    spatial temporal model( CSTM) ,           d.  由 CSTM和曆史的 STM,按照設定的學習系數,得到當下最終的STM. 通過曆史幀和目前幀的結合,可以排除目前幀目标變化的影響。                final STM = CSTM * ρ  +(1-ρ ) * Formal STM;          e.  由 final STM 和 spatio context model 生成下一幀(t+1)的confidence map. 并傳回到 a步驟中,重複循環進行。                                      測試出來的效果:          後期跟蹤框異常放大,且出現了跟蹤中心點偏離到目标中心左上角的情況。  跟蹤中心偏離到目标中心的左上角:            1.  目前自己直覺的感覺是由于實際跟蹤的目标是一個光闆,導緻目标的 頻率資訊不夠豐富,容易導緻跟蹤中心點發散;   但是真正的具體原因需要慢慢分析;(這個點實際上可以接着往下做,說明清楚什麼參數适合什麼樣的目标)          2. 跟蹤後期出現了跟蹤框異常放大的情況,初步認為的原因是:    σ 放大的有些快了, st 計算值在特定幾幀突然變大->置信圖計算值過大->prior context model 中計算由于進行了歸一化處理 導緻的??    d. 後續的工作計劃:        我沒有想清楚算法實作過程中為什麼一定要使用到FFT變換,可不可以不用。依稀記得文章裡面提及到的原因是要使用卷積來快速操作。該問題的核心後來自己想了一下,就是下面這個公式沒有看懂。 況且這個公式也是快速的關鍵。

  e.附錄:   1.  Spatio-Temporal Context Learning論文相關參考網頁:     http://blog.csdn.net/zouxy09/article/details/16889905     http://www.cnblogs.com/marcworld/p/3682579.html

  2. 視覺與學習青年學者研讨會 http://www.valseonline.org/portal.php   3. 2015 CVPR論壇參會記錄 http://blog.163.com/pz124578pz124578 [email protected]/blog/static/235226942015622112415139/