天天看點

【視覺目标跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)

視覺跟蹤領域國際頂級賽事 Visual-Object-Tracking Challenge (VOT) 2017年結果出爐,結合傳統濾波及深度學習的方案取得最佳成績。本文是第二名北京郵電大學代表團隊的技術分享。他們基于濾波的架構,抛棄傳統特征,隻使用CNN特征,減少了特征備援,緩解了模型過拟合,使追蹤器在速度和精度上都有不小的提高。代碼分享連結:https://github.com/he010103/CFWCR.git

随着深度學習在計算機視覺方面大放異彩,近幾年物體追蹤也得到了飛速的發展。物體追蹤解決的問題是在一段時間内對于同一個物體在複雜的背景下(如遮擋,光照,物體旋轉等),進行持續高速的跟蹤。是以,物體追蹤是監控,安防,自動駕駛,無人機,智能家居等應用中必須解決的關鍵課題。

作為視覺跟蹤領域的最高峰,Visual-Object-Tracking Challenge (VOT) 是國際目标跟蹤領域最權威的測評平台,由伯明翰大學、盧布爾雅那大學、布拉格捷克技術大學、奧地利科技學院聯合創辦,旨在評測在複雜場景下單目标短時跟蹤的算法性能。由于每年的評測序列都會更新,且标注的精确度一年一年提高,VOT競賽也被視為視覺跟蹤領域最難的競賽,遠遠超過了其他資料集。是以,每年最好的追蹤算法都會在上面一展拳腳,在激烈的比拼中擦出靈感的火花。

今年的比賽 VOT 2017,作為 ICCV 2017的一個workshop,吸引了來自全世界的38個隊伍參加(CMU,中科院,法國科學院,香港理工,華中科技大學,國防科大,美國海軍研究院,牛津大學,中國科技大學,浙江大學等),送出了38個新的算法參加了比賽,加上組委會自行送出的13個算法,總共對比分析了51個跟蹤器在VOT2017 資料集上的表現。

在公開的38個隊伍中,大連理工大學的盧湖川教授隊伍奪得第一名。由北京郵電大學董遠教授指導,北京飛搜科技&北京郵電大學代表隊何智群、樊應若、莊駿飛、白洪亮送出的結果(CFWCR)獲得VOT 2017競賽公開的60個評測序列中第二名。

VOT 競賽,檢驗目前單目标追蹤最高标準

VOT 2017與VOT 2016相比,VOT 2016中某些序列已經被多數tracker準确跟蹤,是以在VOT 2017中,将VOT 2016的10個評測效果差圖像序列替換如圖1,并且保證總體的序列屬性分布不變。與此同時,VOT2017相對于VOT2016對所有序列的還對所有序列的ground truth進行了重新标定,精确到像素級别,然後重新拟合矩形框。

【視覺目标跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)

VOT2017使用EAO(Expected Average Overlap)、Accuracy、Robustness三個主要名額對跟蹤結果進行評估,

平均重疊期望(EAO)是對每個跟蹤器在一個短時圖像序列上的非重置重疊的期望值,是VOT評估跟蹤算法精度的最重要名額。

準确率(Accuracy)是指跟蹤器在單個測試序列下的平均重疊率(兩矩形框的相交部分面積除以兩矩形框的相并部分的面積)。

魯棒性(Robustness)是指單個測試序列下的跟蹤器失敗次數,當重疊率為0時即可判定為失敗。

今年的VOT結果如下:

【視覺目标跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)

圖2 VOT2017結果圖

VOT 2017結果顯示,目前跟蹤算法的主流方法主要分為三種,一是傳統的相關濾波方法,二是基于卷積神經網絡方法,三是深度卷積特征和傳統的協同濾波相結合的方法。

其中,使用深度卷積特征和協同濾波結合的方法效果最好。例如今年VOT第一名,大連理工大學盧老師的LSART,他們提出的追蹤器以一種新的方式結合了CNN和相關濾波,通過設計算法讓CNN專注于特定區域的回歸,相關濾波專注于全局的回歸,在最後對回歸的結果進行組合,以互補的方式得到物體的精确定位。

今年VOT的51個tracker中,深度特征和相關濾波結合的方法共9種,采用如VGG網絡提取特征再輸入到相關濾波架構内,以非端到端線上更新濾波參數,達到準确追蹤的效果。這9種深度特征和相關濾波結合的方法在VOT2017種表現均較為出色,包攬了前四名。

VOT 2017視覺跟蹤第二名技術:單卷積特征的相關濾波解決方案

北京飛搜科技&北京郵電大學代表隊送出的結果(CFWCR)獲得VOT 2017競賽公開的60個評測序列中第二名。

我們的方法基于業界流行的相關濾波的架構。我們使用了單CNN特征的多尺度追蹤方案。現有很多追蹤器融合了CNN特征和傳統的機器學習特征,如hog特征,CN顔色特征等。在我們的實驗中,我們發現CNN的淺層特征具有物體輪廓的資訊,高層的深度特征具有物體的語義資訊,将CNN的淺層和高層特征進行融合,能使追蹤器具有很好的性能。

CNN的特征和傳統特征的融合會使得特征的備援太多,容易導緻參數更新的時候模型過拟合,解決過拟合的一種方法是用PCA對特征進行降維。但是,過于複雜的特征組合方式不太利于超參數的精調,我們摒棄了傳統的特征,隻使用了CNN的特征。這一做法,減少了我們的特征備援,模型過拟合的情況得到很大的緩解,使得我們的追蹤器無論是在速度上還是精度上都有了不小的提高。

【視覺目标跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)

圖3 CFWCR追蹤效果對比圖

使用相關濾波架構的一大困難是具有很多的超參數,這和目前主流的端到端深度學習訓練架構有很大的不同。我們發現用PCA對特征進行壓縮,能使得追蹤器在追蹤速度上有很大的提高,但是性能會略有下降。是以,我們在評測上沒有使用PCA,而在實用的追蹤系統中用PCA能更好地均衡速度和精度。

此外,我們發現,在評測中,增加候選尺度的數量能使我們的追蹤器更好地适應物體在時間序列中形狀的變化。最後,我們對CNN的輪廓資訊和語義資訊進行了權重融合,以最優的方法對特征進行組合。

下面是我們的追蹤器在不同的序列長度下的表現曲線。可以看到,我們的算法在短視訊序列的表現明顯優于其他主流的算法。

【視覺目标跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)

圖4 CFWCR重疊率性能圖

視覺跟蹤未來展望:充分利用CNN

連續兩年的VOT比賽中,基于相關濾波和CNN結合的追蹤器表現突出,在性能名額上遙遙領先于其他算法。然而,非端到端的訓練架構擁有很多的超參數,線上更新的方式也使得在實際算法部署的過程中,目前性能最優的一些追蹤器難以滿足實時性的要求。

視覺追蹤方向和物體檢測、物體分割方向不同的一點,在于CNN并沒有完全發揮它的強大作用。未來的視覺追蹤方向應該會更加關注實時性和訓練的便捷性,端到端訓練的追蹤器會更多湧現,讓CNN能夠完全在視覺追蹤領域發揮功效。我們也将繼續在視覺跟蹤領域深入研究,希望能給學術界和工業界做一些小小的貢獻!

代碼分享連結:https://github.com/he010103/CFWCR.git

參考資料

[1]http://www.votchallenge.net

[2]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/Kristan_The_Visual_Object_ICCV_2017_paper.pdf

[3]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/He_Correlation_Filters_With_ICCV_2017_paper.pdf

原文釋出時間為:2017-11-4

本文作者:何智群

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀