ECCV2020 | Ocean：目标感覺的Anchor-free實時跟蹤器，速度70+FPS！剛開源

Ocean：目标感覺的Anchor-free實時跟蹤器，表現SOTA！

性能優于SiamRPN++、DiMP等網絡，速度可高達70+ FPS！

論文連結：https://arxiv.org/pdf/2006.10721.pdf

代碼剛剛開源！

https://github.com/researchmm/TracKit

作者團隊：中科院&微軟

摘要

ECCV2020 | Ocean：目标感覺的Anchor-free實時跟蹤器，速度70+FPS！剛開源

基于anchor的Siamese跟蹤器在準确性方面取得了顯著的進步，但是進一步的改進卻受到滞後跟蹤魯棒性的限制。我們發現根本原因是：

基于anchor的方法中的回歸網絡僅在正錨框中訓練（即IoU≥0.6），該機制使得難以細化與目标對象重疊的anchor。

在本文中，我們提出了一個新穎的目标感覺的anchor-free網絡來解決這個問題：

首先，不完全參考anchor，而是以anchor-free方式直接預測目标對象的位置和比例。由于groundtruth框中的每個像素均受過良好訓練，是以跟蹤器能夠在推理過程中糾正目标對象的不精确預測。
其次，引入特征對齊子產品，以從預測的邊界框中學習對象感覺特征。目标感覺功能可以進一步有助于目标對象和背景的分類。
此外，還提出了一種基于anchor-free模型的新型跟蹤架構。

實驗表明，我們的anchor-free跟蹤器在五個基準上達到了最先進的性能，包括VOT-2018，VOT-2019，OTB-100，GOT-10k和LaSOT。

《Ocean: Object-aware Anchor-free Tracking》其ECCV 2020論文名為：《Learning Object-aware Anchor-free Networks for Real-time Object Tracking》

主要思路

Siamese跟蹤器以其均衡的速度和精度引起了人們的廣泛關注。

比較具有開創性的工作例如SINT[35]和SiamFC[1]使用Siamese網絡學習目标和候選圖像更新檔之間的相似性度量，進而将跟蹤模組化為目标在整個圖像上的搜尋問題。大量的Siamese跟蹤器被提出并取得了很好的效果。其中，被稱為SiamRPN[22]的Siamese區域候選網絡是其中的最具代表性的作品。SiamRPN引入了區域建議網絡RPN[31]，該網絡由前景背景估計的分類網絡和錨框優化的回歸網絡組成，即，學習預定義錨框的2D偏移量。這種基于錨的跟蹤器在跟蹤精度方面顯示出了巨大的潛力。

缺點：

由于回歸網絡隻訓練在正錨盒上(即IoU≥0.6)，很難細化與目标對象重疊較小的錨點。這将導緻跟蹤失敗，特别是當分類結果不可靠時。

例如，由于跟蹤誤差的積累，對目标位置的預測可能變得不可靠。由于之前在訓練集中看不到這種弱預測，回歸網絡無法對其進行修正。作為一個序列，跟蹤器在随後的幀中逐漸漂移。

問題的提出：

人們很自然會提出這樣一個問題：我們能設計一個具有糾正不準确預測能力的邊界盒回歸模型嗎?

解決辦法：

在這項工作中，我們證明了答案是肯定的：

我們的目标感覺anchor-free跟蹤器直接回歸目标對象在視訊幀中的位置，而不是預測錨盒的小偏移量！更具體地說，提出的跟蹤器由兩個部分組成：目标感覺分類網絡和邊界盒回歸網絡。

分類網絡負責确定一個區域是屬于前景還是背景，而回歸網絡則預測目标對象内的每個像素到groundtruth邊界盒的四個邊的距離。由于groundtruth中的每個像素都經過了良好的訓練，即使隻有一小塊區域被識别為前景，回歸網絡也能夠定位目标對象。最終，在推理過程中，跟蹤器能夠修正與目标物體重疊較小的弱預測。

當回歸網絡預測一個更準确的邊界盒時(如校正弱的預測)，相應的特征反過來有助于前景和背景的分類。我們使用預測的邊界框作為參照來學習用于分類的對象感覺特征。更具體地說，我們介紹了一個特征對齊子產品，它包含一個二維空間變換，以對齊特征采樣位置與預測的邊界盒(即候選對象的區域)。該子產品保證了采樣在預測區域内，适應了目标尺度和位置的變化。是以，所學習的特征在分類時更具鑒别性和可靠性。

具體實作

3.1 Object-aware Anchor-Free Networks

Anchor-free回歸網絡

為了解決當預測的邊界盒變得不可靠時，跟蹤器會快速漂移的問題，我們引入了一種新的無錨回歸來進行視覺跟蹤。它将groundtruth邊界盒中的所有像素都作為訓練樣本。其核心思想是估計目标對象内每個像素到groundtruth邊界盒的四個邊的距離。其中，設

B=(x0,y0,x1,y1)∈r4

表示目标對象的groundtruth包圍盒的左上角和右下角。如果一個像素的坐标(x,y)落入groundtruth box B，則将其視為回歸樣本。是以，訓練樣本的labels T∗= (l∗，t∗，r∗，b∗)計算為：

(a)回歸:groundtruth box中的像素，即紅色區域，在訓練中被标記為正樣本。

(b)正則區分類:靠近目标中心的像素，即紅色區域，被标記為正樣本。紫色點表示分數圖中某個位置的采樣位置。

(c)對象感覺分類:預測盒和groundtruth盒的IoU，即訓練時使用帶有紅斜線的區域作為标簽。青色點代表提取對象感覺特征的采樣位置。黃色箭頭表示空間變換産生的偏移量。

回歸網絡的學習是通過4個信道數為256的3×3卷積層，再通過1個信道數為4的3×3層來預測距離。這種無錨回歸算法在訓練時将groundtruth box中的所有像素都考慮在内，即使隻識别出一個很小的區域作為前景，也可以預測目标物體的尺度。是以，跟蹤器能夠在一定程度上修正推理過程中的弱預測。

Object-aware Classification Network

在之前的Siamese跟蹤方法[1,21,22]中，分類置信度是通過從特征圖中固定規則區域采樣的特征來估計的，例如。，圖2(b)中的紫色點。該采樣特征描述了圖像中固定的局部區域，不能随對象尺度的變化而縮放。結果表明，分類置信度在複雜背景下區分目标對象時不可靠。

為了解決這個問題，我們提出了一個特征對齊子產品來學習用于分類的對象感覺特征。對于分類圖中的每個位置(dx,dy)，都有一個回歸網絡預測的對應的對象包圍框M= (mx,my,mw,mh)，其中mx和my表示盒子中心，mw和mh表示盒子的寬度和高度。我們的目标是通過從相應候選區域M中采樣特征來估計每個位置(dx,dy)的分類置信度。核大小為k×k的标準二維卷積樣本特征使用固定的網格：

是以，我們提出在規則采樣網格G上加一個空間變換T(圖2C中的黃色箭頭)，将固定區域的采樣位置轉換為預測區域M。

采樣位置的轉換可以适應視訊幀中預測邊界盒的變化。是以，所提取的目标感覺特征對目标尺度的變化具有較強的魯棒性，有利于跟蹤過程中的特征比對。此外，對象感覺特征提供了候選目标的全局描述，使目标和背景的區分更加可靠。

Loss Function

其中回歸loss：

分類loss：

規則區域loss：

3.2 object-aware Anchor-Free Tracking

Framework

特征提取：

該方法遵循Siamese跟蹤器[1]的架構，以圖像對作為輸入，即示例圖像和候選搜尋圖像。示例圖像表示要跟蹤的目标，即第一幀以目标對象為中心的圖像patch，而搜尋圖像通常較大，代表後續視訊幀的搜尋區域。兩個輸入都由修改後的ResNet-50[13]主幹處理，然後産生兩個特征圖。更具體地說，我們去掉了标準ResNet-50[13]的最後一個階段，隻保留了前四個階段作為主幹。前三個階段的結構與最初的ResNet-50相同。在第四階段，将下采樣單元的卷積步幅由2修改為1，增加feature map的空間大小，同時将所有的3×3卷積都進行擴充，步幅擴大為2，增加接受野。這些修改提高了輸出特征的分辨率，進而提高了特征在目标定位中的能力。

特征組合：

将提取的樣本特征與搜尋圖像相結合，生成相應的相似度特征，用于後續的目标定位。與之前在多尺度特征上執行cross-correlationon的工作不同，我們的方法隻在單一尺度上執行，即backbone的最後階段。我們将單尺度特征通過三個平行擴張的卷積層[48]，再将相關特征逐點求和融合，如圖3(特征組合)所示。

目标定位：

這一步使用所提出的網絡來定位搜尋圖像中的目标。分類網絡預測的兩個機率po和pr通過權重ω進行權重：

我們對尺度變化施加懲罰來抑制物體大小和高寬比的大變化，如下所示:

最終的目标分類機率計算

ˆpcl =α·pcl

Integrating Online Update

我們進一步為離線算法配置了一個線上更新模型。引入了一個線上分支來捕捉目标對象在跟蹤過程中的外觀變化。如圖3(底部)所示，線上分支繼承骨幹網前三個階段的結構和參數，即，修改ResNet-50[13]。第四階段保持主幹結構不變，但通過[2]中提出的預訓練政策獲得其初始參數。在模型更新方面，采用快速共轭算法[2]對推理過程中的線上分支進行訓練。将線上分支和分類分支估計的前景得分圖權重為：

實驗結果