天天看點

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

Ocean:目标感覺的Anchor-free實時跟蹤器,表現SOTA!

性能優于SiamRPN++、DiMP等網絡,速度可高達70+ FPS!

論文連結:https://arxiv.org/pdf/2006.10721.pdf

代碼剛剛開源!

https://github.com/researchmm/TracKit

作者團隊:中科院&微軟

1

摘要

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

基于anchor的Siamese跟蹤器在準确性方面取得了顯著的進步,但是進一步的改進卻受到滞後跟蹤魯棒性的限制。我們發現根本原因是:

基于anchor的方法中的回歸網絡僅在正錨框中訓練(即IoU≥0.6),該機制使得難以細化與目标對象重疊的anchor。

在本文中,我們提出了一個新穎的目标感覺的anchor-free網絡來解決這個問題:

  • 首先,不完全參考anchor,而是以anchor-free方式直接預測目标對象的位置和比例。由于groundtruth框中的每個像素均受過良好訓練,是以跟蹤器能夠在推理過程中糾正目标對象的不精确預測。
  • 其次,引入特征對齊子產品,以從預測的邊界框中學習對象感覺特征。目标感覺功能可以進一步有助于目标對象和背景的分類。
  • 此外,還提出了一種基于anchor-free模型的新型跟蹤架構。

實驗表明,我們的anchor-free跟蹤器在五個基準上達到了最先進的性能,包括VOT-2018,VOT-2019,OTB-100,GOT-10k和LaSOT。

《Ocean: Object-aware Anchor-free Tracking》 其ECCV 2020論文名為:《Learning Object-aware Anchor-free Networks for Real-time Object Tracking》

2

主要思路

Siamese跟蹤器以其均衡的速度和精度引起了人們的廣泛關注。

比較具有開創性的工作例如SINT[35]和SiamFC[1]使用Siamese網絡學習目标和候選圖像更新檔之間的相似性度量,進而将跟蹤模組化為目标在整個圖像上的搜尋問題。大量的Siamese跟蹤器被提出并取得了很好的效果。其中,被稱為SiamRPN[22]的Siamese區域候選網絡是其中的最具代表性的作品。SiamRPN引入了區域建議網絡RPN[31],該網絡由前景背景估計的分類網絡和錨框優化的回歸網絡組成,即,學習預定義錨框的2D偏移量。這種基于錨的跟蹤器在跟蹤精度方面顯示出了巨大的潛力。

  • 缺點:

由于回歸網絡隻訓練在正錨盒上(即IoU≥0.6),很難細化與目标對象重疊較小的錨點。這将導緻跟蹤失敗,特别是當分類結果不可靠時。

例如,由于跟蹤誤差的積累,對目标位置的預測可能變得不可靠。由于之前在訓練集中看不到這種弱預測,回歸網絡無法對其進行修正。作為一個序列,跟蹤器在随後的幀中逐漸漂移。

  • 問題的提出:

人們很自然會提出這樣一個問題:我們能設計一個具有糾正不準确預測能力的邊界盒回歸模型嗎?

  • 解決辦法:

在這項工作中,我們證明了答案是肯定的:

我們的目标感覺anchor-free跟蹤器直接回歸目标對象在視訊幀中的位置,而不是預測錨盒的小偏移量!更具體地說,提出的跟蹤器由兩個部分組成:目标感覺分類網絡和邊界盒回歸網絡。

分類網絡負責确定一個區域是屬于前景還是背景,而回歸網絡則預測目标對象内的每個像素到groundtruth邊界盒的四個邊的距離。由于groundtruth中的每個像素都經過了良好的訓練,即使隻有一小塊區域被識别為前景,回歸網絡也能夠定位目标對象。最終,在推理過程中,跟蹤器能夠修正與目标物體重疊較小的弱預測。

當回歸網絡預測一個更準确的邊界盒時(如校正弱的預測),相應的特征反過來有助于前景和背景的分類。我們使用預測的邊界框作為參照來學習用于分類的對象感覺特征。更具體地說,我們介紹了一個特征對齊子產品,它包含一個二維空間變換,以對齊特征采樣位置與預測的邊界盒(即候選對象的區域)。該子產品保證了采樣在預測區域内,适應了目标尺度和位置的變化。是以,所學習的特征在分類時更具鑒别性和可靠性。

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

3

具體實作

3.1 Object-aware Anchor-Free Networks

  • Anchor-free回歸網絡

為了解決當預測的邊界盒變得不可靠時,跟蹤器會快速漂移的問題,我們引入了一種新的無錨回歸來進行視覺跟蹤。它将groundtruth邊界盒中的所有像素都作為訓練樣本。其核心思想是估計目标對象内每個像素到groundtruth邊界盒的四個邊的距離。其中,設

B=(x0,y0,x1,y1)∈r4

表示目标對象的groundtruth包圍盒的左上角和右下角。如果一個像素的坐标(x,y)落入groundtruth box B,則将其視為回歸樣本。是以,訓練樣本的labels T∗= (l∗,t∗,r∗,b∗)計算為:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源
ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

(a)回歸:groundtruth box中的像素,即紅色區域,在訓練中被标記為正樣本。

(b)正則區分類:靠近目标中心的像素,即紅色區域,被标記為正樣本。紫色點表示分數圖中某個位置的采樣位置。

(c)對象感覺分類:預測盒和groundtruth盒的IoU,即訓練時使用帶有紅斜線的區域作為标簽。青色點代表提取對象感覺特征的采樣位置。黃色箭頭表示空間變換産生的偏移量。

回歸網絡的學習是通過4個信道數為256的3×3卷積層,再通過1個信道數為4的3×3層來預測距離。這種無錨回歸算法在訓練時将groundtruth box中的所有像素都考慮在内,即使隻識别出一個很小的區域作為前景,也可以預測目标物體的尺度。是以,跟蹤器能夠在一定程度上修正推理過程中的弱預測。

  • Object-aware Classification Network

在之前的Siamese跟蹤方法[1,21,22]中,分類置信度是通過從特征圖中固定規則區域采樣的特征來估計的,例如。,圖2(b)中的紫色點。該采樣特征描述了圖像中固定的局部區域,不能随對象尺度的變化而縮放。結果表明,分類置信度在複雜背景下區分目标對象時不可靠。

為了解決這個問題,我們提出了一個特征對齊子產品來學習用于分類的對象感覺特征。對于分類圖中的每個位置(dx,dy),都有一個回歸網絡預測的對應的對象包圍框M= (mx,my,mw,mh),其中mx和my表示盒子中心,mw和mh表示盒子的寬度和高度。我們的目标是通過從相應候選區域M中采樣特征來估計每個位置(dx,dy)的分類置信度。核大小為k×k的标準二維卷積樣本特征使用固定的網格:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

是以,我們提出在規則采樣網格G上加一個空間變換T(圖2C中的黃色箭頭),将固定區域的采樣位置轉換為預測區域M。

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

采樣位置的轉換可以适應視訊幀中預測邊界盒的變化。是以,所提取的目标感覺特征對目标尺度的變化具有較強的魯棒性,有利于跟蹤過程中的特征比對。此外,對象感覺特征提供了候選目标的全局描述,使目标和背景的區分更加可靠。

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源
  • Loss Function
ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

其中回歸loss:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

分類loss:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

規則區域loss:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

3.2 object-aware Anchor-Free Tracking

  • Framework

特征提取:

該方法遵循Siamese跟蹤器[1]的架構,以圖像對作為輸入,即示例圖像和候選搜尋圖像。示例圖像表示要跟蹤的目标,即第一幀以目标對象為中心的圖像patch,而搜尋圖像通常較大,代表後續視訊幀的搜尋區域。兩個輸入都由修改後的ResNet-50[13]主幹處理,然後産生兩個特征圖。更具體地說,我們去掉了标準ResNet-50[13]的最後一個階段,隻保留了前四個階段作為主幹。前三個階段的結構與最初的ResNet-50相同。在第四階段,将下采樣單元的卷積步幅由2修改為1,增加feature map的空間大小,同時将所有的3×3卷積都進行擴充,步幅擴大為2,增加接受野。這些修改提高了輸出特征的分辨率,進而提高了特征在目标定位中的能力。

特征組合:

将提取的樣本特征與搜尋圖像相結合,生成相應的相似度特征,用于後續的目标定位。與之前在多尺度特征上執行cross-correlationon的工作不同,我們的方法隻在單一尺度上執行,即backbone的最後階段。我們将單尺度特征通過三個平行擴張的卷積層[48],再将相關特征逐點求和融合,如圖3(特征組合)所示。

目标定位:

這一步使用所提出的網絡來定位搜尋圖像中的目标。分類網絡預測的兩個機率po和pr通過權重ω進行權重:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

我們對尺度變化施加懲罰來抑制物體大小和高寬比的大變化,如下所示:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

最終的目标分類機率計算

ˆpcl =α·pcl

  • Integrating Online Update

我們進一步為離線算法配置了一個線上更新模型。引入了一個線上分支來捕捉目标對象在跟蹤過程中的外觀變化。如圖3(底部)所示,線上分支繼承骨幹網前三個階段的結構和參數,即,修改ResNet-50[13]。第四階段保持主幹結構不變,但通過[2]中提出的預訓練政策獲得其初始參數。在模型更新方面,采用快速共轭算法[2]對推理過程中的線上分支進行訓練。将線上分支和分類分支估計的前景得分圖權重為:

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源

4

實驗結果

ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源
ECCV2020 | Ocean:目标感覺的Anchor-free實時跟蹤器,速度70+FPS!剛開源