天天看點

(轉)CVPR 2016 Visual Tracking Paper Review

  CVPR 2016 Visual Tracking Paper Review 

本文摘自:http://blog.csdn.net/ben_ben_niao/article/details/52072659   

     http://blog.csdn.net/ben_ben_niao/article/details/52078727

做了一段時間的跟蹤,最近CVPR大會也過了一段時間了,這次将CVPR2016跟蹤的文章做一次總結,主要是對paper的方法,創新,改進等方面進行介紹和總結。具體的實作細節不進行總結,

今年來湧現了很多做跟蹤的文章,但是目前多少的方法很難達到一個預期的效果。目前的跟蹤主要有主要有如下幾大難題:

  1. 解決快速移動問題。這個問題其實是算法速度的問題,通常的做法是在一個搜尋區域進行跟蹤,這樣對快速移動物體的魯棒性較低,如果索索區域越大,算法耗時,怎麼權衡這兩者的關系是一大難題。
  2. 解決遮擋,形變問題。由于跟蹤問題online的樣本太少,當物體遮擋,形變後,比較難跟蹤。遮擋的情況有多種,要解決的是一個綜合問題。目前深度學習的方法因對遮擋的效果明顯比傳統的算法好,但是速度是一大瓶頸。
  3. 速度問題。速度問題可以說是與上述兩個問題互斥,最後都是各個問題的綜合權衡。一般來講,傳統的算法速度比基于深度學習的方法快,但效果卻不及。

今年的CVPR2016中,其實好多文章很早網上就有了,在這了也是對以前的一個總結。

一,Adaptive Decontamination of the Training Set:A Unified Formulation for Discriminative Visual Tracking

這篇文章的作者為SRDCF的作者,主要解決從訓練樣本進行改進。效果提升不少。

  • 特點:
    • 利用樣本的quality來訓練樣本的權重。期望提高有較高quality的樣本的impact,降低較差樣本的影響。
    • 将樣本的quality融合到現有的loss function,進而達到同時訓練求解。
    • 效果.和SRDCF相比,在OTB15資料集IoU=0.5時,OPE提升從60.5%提升到63.4%,也不錯,而且該思想可以用到很多算法上,擴充性較強。
其實本文的想法很簡單,可信度越高的訓練樣本,給較高的權重,相反則降低。這種思想很多地方都有,關鍵是怎麼設計loss function達到作者的目的,在一個層面上,作者是第一個實作并結果尚佳的。相比以前,最簡單粗暴的方法就是通過設定一個門檻值,低于門檻值的sample認為quality太低,直接舍棄,相反則保留,或者将score作為樣本的權重。hard negative也是解決樣本的其中一個流行方法。而本文作者的方法是,通過訓練得到樣本的權重。
  • 作者設計的代價函數如下(求解:兩步法,固定一個求另一個,然後固定另一個...交替循環求解):
(轉)CVPR 2016 Visual Tracking Paper Review
  • 直覺的感受一下效果如下:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review

二,STCT: Sequentially Training Convolutional Networks for Visual Tracking

這篇文章是港中文大學王曉剛之作,主要解決的還是訓練樣本太少造成的over-fitting問題。

  • 特點:
    • 将每個channel的feature map作為一個based-classifier,并且每一個channel的based-classifier的loss設計不同.
    • based-classifier根據相關性來選取(前一個based-classifier會作用目前這個based-classifier的選取),盡量不相關(類似PCA)。
    • 在convolution上用mask進一步防止over-fit(其實類似fc的dropout,隻是說法不同)。
  • 上述中,第二點為主要特點,整文基本圍繞第二點來設計,對此作者在pre-trained的網絡後面額外加入兩層網絡,并且這兩層網絡并不是全連接配接,pipeline如下:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review

三,Staple: Complementary Learners for Real-Time Tracking

這篇文章主要是從特征結合方面入手,對跟蹤算法進行改進。給我們提供了一種有效的結合方式,并且作者release的速度達到80fps[i7 core],這一點相當有意義。

  • 特點:
    • 将Hog特征和color(直方圖)特征進行有效的結合,在保證效果的基礎上速度達到80+fps.
    • 提出了一種有效的特征融合方法,以及代價函數的設計和求解。
那麼為什麼要進行這樣的融合呢?首先,hog特征是基于cell_size的梯度統計特征,局部魯棒性較好,但是對全局的形變,效果不太好,而color直方圖統計基于全局,能有效的彌補這一缺點,是以作者采用的是這兩種特征的融合。
  • 作者設計的score function為:
(轉)CVPR 2016 Visual Tracking Paper Review
其實最low的組合是将特征融合在一起,然後用一個跟蹤算法算得score.當然作者并非采用的這樣方法,而是采用更複雜的方法。作者是從score(即responce)方面進行融合,也就是算法包括兩部分:
  1. 計算hog特征,進行filter濾波跟蹤算法,得到f_tmpl的score。
  2. 計算color直方圖特征,等,得到f_hist的score.
  3. 将兩個score進行組合。
這樣融合,在兩種特征計算濾波器也要單獨計算,這樣也使得整個過程稍微複雜了。
  • 直覺感受作者的pipeline:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review

四,Siamese Instance Search for Tracking

這篇文章思路很簡單,直接訓練一個Siamese網絡,然後進行比對,判斷是不是相同。其實就是一個Re-ID的過程。之是以在這裡列出這篇文章,是因為在特定的場合可以和檢測相結合來跟蹤,彌補檢測速度比跟蹤慢以及Re-ID的問題。

  • 特點:
    • offline訓練Siamese網絡,online直接選擇候選區域和第一幀的groundtruth對比,然後對通過的候選區域做BBox回歸,得出最終的BBox。
    • 缺點很明顯,遮擋,形變,類内區分等魯棒性低。
  • 直接上網絡圖:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review

五,Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals

這篇文章在vot2015年就出來了,當時叫:“Tracking Randomly Moving Objects on Edge Box Proposals”,這篇文章主要是結合全局proposal來解決fast motion的問題。

  • 特點:
    • 将檢測中的proposal的思想用到跟蹤裡。使跟蹤的候選區域既包含局部的搜尋區域,也包含全局的一些proposal,進而提高對快速移動物體的魯棒性。
    • 提取全局proposal:将目标區域劃分為10個子區域,将子區域的特征進行組合,來計算全局的proposal.
    • 提取proposal所用到的特征和最後跟蹤所用到的特征是不同的特征。
  • 其中,本文最主要的特點為上述的第二點,為了直覺了解,直接上第二點的圖:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review
  • 文章的pipeline:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review

參考文獻:

[1],Adaptive Decontamination of the Training Set:A Unified Formulation for Discriminative Visual Tracking

[2],Staple: Complementary Learners for Real-Time Tracking

[3],Siamese Instance Search for Tracking

[4],Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals

[5],STCT: Sequentially Training Convolutional Networks for Visual Tracking 

接着上一篇部落格,今天對剩下的文章進行簡單總結,同樣,文章隻對paper的主要特點,和流程架構進行總結,具體細節盡可能不涉及。

一,Recurrently Target-Attending Tracking

首先介紹這一片文章,作者主要将RNN運用到物體跟蹤上,主要想解決遮擋等問題。其實這篇文章思路和KCF和SRDCF思路一樣,隻是将其與RNN進行了結合,而且作者在公式說明上寫的很複雜,其實原理并不複雜。簡單的了解作者的貢獻就是:通過RNN擷取considence map,并将其作為SRDCF懲罰項w的值(原始SRDCF懲罰項是Gauss分布的值來抑制boundary effect,作者要用RNN來獲得w是期望提高沒有遮擋部分的impact,降低遮擋部分的影響,而且具有context資訊,進而提高算法對遮擋的魯棒性)。

  • 特點:
    • 将RNN運用到tracking,結合grid思想,将區域劃分為grid,并對每個grid進行四個方向RNN。
    • 将RNN的得到的結果(confidence map)用初始化SRDCF loss function的懲罰項。
    • 作者給出的實驗結果(隻給出了filter based methods的比較)來看,效果還可以。但是速度慢:4fps
本文首先将候選區域進行grid劃分,然後對其提取特征,将每一個grid區域進行四個方向的RNN,然後疊加得到RNN輸出的confidence map。那麼為啥要用到RNN呢,并且劃分grid呢?
  1. 首先grid主要是part-based思想的運用。可以通過mask控制grid,進而期望解決(目标被)遮擋問題。
  2. RNN比其LSTM來說,RNN具有low-freedom parameter space,而跟蹤問題本身樣本少,容易overfit,RNN這一性質可以緩和過拟合。
在RNN階段,作者利用softmax來擷取confidence map,并肩這個值作為如下公式中的W(如下公式其實就是SRDCF中的loss function),用該loss function 訓練濾波器。求解過程和SRDCF一樣。
(轉)CVPR 2016 Visual Tracking Paper Review
  • 說到這裡,這下可以直接給出作者的pipeline了:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review
  • 效果(遺憾的是,并沒有和SRDCF的比較):
(轉)CVPR 2016 Visual Tracking Paper Review

二,Hedged Deep Tracking

這篇文章為Ming-Hsuan Yang之作,由于高層卷積具有一定的語義資訊,而位置資訊卻不夠精确,而對于跟蹤來講,位置資訊也很重要,是以本文主要是想通過這兩者的一種結合。對不同卷基層的特征進行單獨處理,最後将每一層特征獲得的responce map做一個線性組合,得到最終的結果。

  • 主要特點
    • 對每一層的特征進行訓練,得到濾波器(文章稱為weak tracker,用的KCF算法),然後将weak tracker進行線性組合,得到stronger tracker(類似boosting).
    • 組合采用的是Hedge 算法。
    • 效果還可以,相比MEEM來說提升不少(相對現在的冠軍來說應該是差一些)。
  • 是以很容易了解作者的Pipeline:
(轉)CVPR 2016 Visual Tracking Paper Review

從上面可以看出,主要就是濾波器和Hedge組合算法的運用。文章采用的是KCF算法,由于第一次接觸Hedge算法,是以在這裡對算法思路進行講解。

由上面可知,每一個weak tracker都會有對應的responce map,那麼hedge算法是怎麼組合在一起呢?

  • Hedge算法進行濾波器的組合:
    • detection利用的組合公式如下,利用該公式即可進行跟蹤。
(轉)CVPR 2016 Visual Tracking Paper Review
  • train,有了前面detection的跟蹤結果後,怎麼update呢(其實就是update上式中的w_t)?首先利用每個weak tracker的responce map計算一個loss,公式如下(S表示Score或者responce Map,k為weak tracker):
(轉)CVPR 2016 Visual Tracking Paper Review
然後利用的度量式子(regret measure)為:
(轉)CVPR 2016 Visual Tracking Paper Review
    其中:
(轉)CVPR 2016 Visual Tracking Paper Review
那麼最小化如下的代價函數即可跟新w_t的值:
(轉)CVPR 2016 Visual Tracking Paper Review
到此算法跟新完畢!

三,Hierarchical Convolutional Features for Visual Tracking

這篇文章是ICCV15,但是和上文關系很大,同樣是Ming-Hsuan Yang之作,同樣是想結合高底層的特征進行組合。隻是和上文不同的是(上文是訓練多個weak tracker,然後組合得到stronger tracker):這篇文章是利用高層的進行粗定位,然後類似金字塔搜尋從上往下進行由coarse-to-fine進行搜尋(其實就是金字塔的搜尋思想)。同上,也用的kcf算法。

  • 是以主要特點:
    • 金字塔搜尋政策用到不同的卷積特征層,實作從上往下,從coarse-to-fine的比對搜尋(文中叫Hierarchical)。
    • 缺點:很明顯,如果高層定位偏差太大,那麼會導緻最終結果的錯誤。
    • 作者也提到其他的缺點:高層的特征對光照魯棒性較低(很好了解,高層更多的語義資訊,較少的discriminal)
  • 根據上面的特點,pipeline為:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review
作者将這三層的responce map可視化為如下:
(轉)CVPR 2016 Visual Tracking Paper Review
(轉)CVPR 2016 Visual Tracking Paper Review
  • 作者從上到下,從coarse-to-fine的score計算公式為:
(轉)CVPR 2016 Visual Tracking Paper Review

未完待續!

參考文獻:

[1],Recurrently Target-Attending Tracking

[2],Hedged Deep Tracking

[3],Hierarchical Convolutional Features for Visual Tracking