天天看點

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

Hello,大家好!好久沒有寫部落格了,CVPR2020的好多論文都出來了,其中關于目标跟蹤的也有很多篇,有時候也會感歎為什麼我才搞懂上一個SOTA,新的SOTA就立馬出來了呢,好了,不碎碎念了,從這周開始呢,我會對CVPR2020中關于目标跟蹤的論文做一個分享,可能有不對的地方,還請大家指出哦。

更新時間:20200410

摘要:

視覺跟蹤從根本上講是回歸每幀視訊中目标狀态的問題。雖然已經取得了重大的進展,但是跟蹤器仍然會出現失敗和不準确的情況。是以,在目标估計時表達不确定因素是十分重要的。盡管目前的主流算法依賴于估計一個基于狀态的置信度分數,但是該值缺少清晰的機率解釋,進而使其應用複雜化。

是以在本文的工作中,我們提出了一個基于機率的回歸方法,并将其用于跟蹤。在給定輸入圖檔的情況下,我們的網絡預測了目标狀态的條件機率密度。嚴格的來講,我們的方法能對來源于不準确标注和任務中模糊情況的标簽噪聲進行模組化。回歸網絡通過最小化KL散度訓練。當應用于跟蹤時,我們的方法不僅允許對輸出進行機率表達,而且大大地提升了跟蹤效果。我們的跟蹤器在6個資料集上為SOTA,在LaSOT上的AUC達到59.8%,在TrackingNet上的Success為75.8%。代碼和模型連結:https://github.com/visionml/pytracking。

1、引言

視覺目标跟蹤就是在每一幀視訊中估計目标狀态的任務。最常見的情況是用邊界框來表示目标的狀态。不同的問題來源于給定的場景先驗資訊,例如目标類别或靜态相機。最一般的形式是沒有先驗資訊,僅在推理的過程中給定目标的初始狀态。這帶來不小的挑戰,因為算法必須在跟蹤時自己學習目标的模型。

和其他視覺任務(如目标檢測、姿态估計和關鍵點檢測)一樣,視覺跟蹤從根本上來說是一個回歸問題。是以任務的目标變為學習一個模型,特别是一個能夠預測每幀中目标狀态的深度神經網絡。盡管目前和過去的技術采用了大量的方法去解決這個問題,大多數成功的方法在關鍵角度方面是相同的。也就是說,回歸幀

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中的目标狀态

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是通過對任意給定狀态學習

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

預測置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來實作的。接下來,目标狀态通過最大化置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來估計得到。

上述基于置信度的回歸方法常用于之前主流的判别相關濾波器(DCF)算法和最近的Siamese跟蹤器中。為了定位目标,兩類方法都采用了卷積操作來預測目标在空間位置

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

處的置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。最近的工作(DiMP和ATOM)展示了訓練網絡分支來預測整個目标框

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的效果,進而實作邊界框的準确回歸。由于基于置信度回歸方法的巨大成功,我們首先講一下視覺跟蹤中最近的進展。

基于置信度的回歸方法較明顯的優勢是它能夠靈活表達不确定物體,并将其編碼為預測的置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。與之相反,直接的回歸方法

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

強迫網絡緻力于單個預測

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,而不會提供其他資訊。然而,置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

并沒有清晰的解釋,因為它隻是簡單的作為一個要被最大化的值。值的範圍和預測的置信度值的特性很大程度上依賴于loss的選擇和生成用于訓練的相關聯僞标簽的方法。這為設計估計方法和推理預測中不确定性的方法帶來不小的挑戰。這些方法在跟蹤中是高度相關的,比如去确定當目标丢失時是否更新,或輸出的不确定性有多大(見圖1)。我們将通過機率的角度來解決這些問題。

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

圖1 本文方法與SOTA跟蹤器DiMP和SiamRPN++的比較。在跟蹤時,估計目标狀态的不确定性在下面幾種情況中是十分重要的:相似物體的出現(第一行)、遮擋(第二行)、失敗(第三行)、模糊或有其他障礙物(第四行)。與SOTA不同,我們的方法預測了目标狀态

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

基于輸入圖檔

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的機率分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,給出了輸出的清晰解釋。所提出的機率表達式進一步提升了跟蹤器整體的效果,包括上面展示的情形。 

 貢獻:我們提出了在給定輸入圖檔

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下學習去預測目标狀态

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的條件機率密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。和置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

不同,密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

有清晰且直接的解釋,進而使得計算絕對機率成為可能。我們假定沒有特定的分布族,例如高斯分布,而是讓

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

直接由網絡結構自己參數化。特别的,密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

通過SoftMax操作的連續一般化來代表,該方法以前用于基于能量的模型,最近用于DCTD。和這些之前的工作相比,我們也對标注的不确定性進行了模組化。這對跟蹤時應對标注中的噪聲和回歸任務中的模糊性是十分重要的。網絡是通過最小化預測的密度和标簽分布之間的KL散度來訓練的。

我們将本文的方法引入DiMP算法中,進而展示其效果。我們的跟蹤器允許對預測目标狀态進行完全機率表達

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。在7個資料集上的大量實驗表明我們的機率表達和訓練大大的提升了跟蹤器的性能。我們的機率DiMP(PrDiMP)遠遠超過之前的SOTA,尤其是在大型資料集上,包括LaSOT(+2.9%AUC)和TrackingNet(+1.8%Success)。

2、通過置信度預測的回歸

在機器學習中,回歸從根本上講是在給定樣本對

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下,學習從輸入空間

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

到連續輸出空間

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的映射

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。本文中,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

表示圖檔空間。關于回歸最直接的做法是通過最小化loss函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來學習函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,其中

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可能以權重為

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的深度神經網絡參數化。上式中,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

度量了預測值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和相對應的ground-truth值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

之間的差異。盡管損失

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的選擇很大程度上取決于問題,流行的替代方法包括

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

家族,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

2.1、一般表達式

盡管直接的回歸已經成功的應用于很多計算機視覺問題,包括光流和深度估計,但是它不适用于其他視覺任務,比如視覺跟蹤、目标檢測和人體姿态估計。在這些問題中,網絡常常被訓練來預測置信度分數,然後将其最大化來獲得最終估計。在這些情況下,置信度預測優于标準的直接回歸,因為它具有兩個優勢。第一,置信度預測可以捕捉不确定性、多重假設和輸出空間

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中模糊性的存在。網絡不需要緻力于單獨的估計

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。第二,網絡可以更簡單的利用

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的對稱性,比如圖像二維坐标回歸任務的平移不變性,這尤其适用于CNNs。

我們正式将基于置信度的回歸定義為學習函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,該函數預測了在給定輸出-輸入對

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下的标量置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。最終的估計

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

通過最大化關于

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的置信度來獲得,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是以回歸問題就變為從資料

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中學習函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。這通常是通過定義一個函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來實作的,進而産生僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來作為預測

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的ground-truth置信度值。置信度預測網絡就可以通過最小化loss

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來訓練,其中,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

度量了預測置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和相關聯的标簽值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

之間的差異。實際上,根據手頭上的任務,有各種各樣的損失

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

被使用。在下一節中,将研究一些更為流行的例子,其中我們讨論的重點将特别放在視覺跟蹤問題上。

2.2、在視覺跟蹤中

視覺跟蹤的任務是在給定初始位置的情況下,回歸每一幀視訊中目标的狀态。狀态常常用軸對齊的邊界框

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來表示。與其它視覺任務相比,這個問題是特别具有挑戰性的,因為目标的外觀隻有在測試階段才會提供。是以跟蹤器為了定位目标在每幀中的位置,必須基于第一幀來學習一個模型。

由于問題的上述特性,到目前為止的大多數方法聚焦于回歸目标物體的中心二維圖像坐标

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,然後選擇性的用該模型估計多尺度搜尋的單參數尺度因子。這類方法包括著名的判别相關濾波器(DCF)方法、大多數的Siamese網絡和其他早些的方法。公式(1)和(2)被應用在結構化SVMs的理論中,結構化SVMs被用于著名的Struck跟蹤器中。在基于DCF的方法中,卷積層是線上訓練的,即在跟蹤過程中,預測目标的置信度分數,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

其中,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是卷積核,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是從圖檔

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中提取的特征,通常通過固定權重的CNN來實作。卷積(3)的結果是在空間位置

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

處進行評估的,進而獲得置信度值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。DCF方法在置信度預測時采用平方損失函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,這使得在傅裡葉域中(2)式關于

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以高效的優化。幾乎所有的DCF方法都采用以幀

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中目标位置

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

為中心的高斯置信度僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

與DCF相比,Siamese跟蹤器嘗試在離線訓練階段學習網絡的參數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。這通過學習嵌入空間

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來實作,在該空間中目标模闆

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和幀

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

之間的相似性可以通過相關性來計算,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

Siamese方法常在(2)式中使用二進制交叉熵損失函數來訓練網絡參數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

也就是說,目标位置被看作是一個稠密的二進制分類問題,其中僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

代表目标/背景類,或者更一般的說,是一個伯努利分布(一種兩點分布/0-1分布)。常在目标附近

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

設定

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,其他位置設定

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

為了獲得整個目标邊界框的準确預測,最近的一些跟蹤器通過将跟蹤問題拆分為兩部分而獲得了很好的效果。第一部分,使用讓人聯想到上述方法的技術來粗略定位目标,該方法對于相似背景物體、雜亂和遮擋具有較好的魯棒性。在第二部分,一個單獨的網絡分支被用于回歸目标邊界框。為了實作這個目的,ATOM跟蹤器使用基于IoU-Net的網絡頭

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,它對輸入邊界框

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

評分。網絡頭在離線學習階段進行訓練,進而利用(2)中的平方誤差

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來預測交并比(IoU)

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。該情況下,積分(2)通過在訓練過程中采樣邊界框來近似。在跟蹤的過程中,最優框(1)通過預測置信度的基于梯度的最大化來獲得。

最近,Bhat通過設計基于元學習的網絡結構提出了DiMP跟蹤器,該結構從一些樣本對

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中預測(3)的判别目标模型權重

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)
[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。預測的權重被用于第一階段的魯棒目标定位,然後在跟蹤的過程中通過學到的循環優化過程來更新。目标模型預測器

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

通過魯棒版本的平方誤差

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和高斯置信度标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來進行端到端的學習。在第二階段,它采用了ATOM中提出的邊界框回歸技術。

3、方法

我們提出了機率回歸模型,融合了所有基于置信度回歸方法的優點。然而,與上述基于置信度模型不同的是,我們的方法将産生的預測的機率分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

作為輸出。網絡通過最小化預測的密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和條件ground-truth分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

之間的KL散度來訓練,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

對标簽噪聲和任務中的模糊性進行模組化。在推理過程中,通過最大化預測密度來獲得回歸值的點估計。

與基于置信度的回歸方法相比,我們的方法有幾個比較重要的優勢。在基于置信度的回歸方法中,預測值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

很難解釋,并且它的值很大的依賴于僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和loss函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。相反,我們方法的機率特性使推理輸出中的不确定性成為可能。此外,在我們的方法中,僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

用标簽條件分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來代替,該分布對标注

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中的噪聲和不确定性進行模組化。最後,和基于置信度的回歸方法相比,我們的方法不需要選擇loss函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。相反,我們直接最小化預測的分布和ground-truth之間的KL散度。接下來,我們提供所提出回歸模型的一般表達式,并在第4節中用于跟蹤。

3.1、代表

在本節中,我們制定了一個高效訓練網絡的方法,該網絡用于在給定輸入

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下預測輸出

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的機率分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。密度用之前基于機率能量的深度學習和最近的深度條件目标密度中的方法來代表,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

至于第2節中描述的基于置信度的方法,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是一個将輸出-輸入對

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

映射為标量值的深度神經網絡。(6)通過求幂和與标準化常量

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的除法将上述值變為機率密度。事實上,(6)是SoftMax操作對任意輸出空間

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的直接一般化。

既然網絡的輸出代表

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

上的機率密度,我們可以通過拟合資料的機率分布的方法來學習網絡參數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。給定訓練樣本對

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,最簡單的方法是最小化負對數似然,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

最近,這個方法在一些計算機視覺任務上較為成功,包括視覺跟蹤中的邊界框回歸。負對數似然損失(7)的一大優勢是它隻用了訓練樣本

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

本身,而沒有其他的假設。然而,這帶來了比較重要的限制,在下面讨論。

3.2、标簽不确定性和學習目标

與負對數似然損失(7)相比,第2節中描述的基于置信度的方法具有一定的靈活性,靈活性則來源于僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。實際上,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的設計對跟蹤效果是十分關鍵的。我們認為這是由于任務的固有的模糊性和标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的不确定性。大多數的方法都聚焦于回歸圖像中目标的中心點坐标

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。然而,對于大多數目标,這是一個模糊的任務。盡管中心點坐标被定義為目标邊界框的質心,這對于人類來說不是一個視覺上直覺的定義,也同樣不是一個跟蹤算法。

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

 圖2 跟蹤器常被訓練來預測ground-truth邊界框(紅色)的中心點坐标。對于左邊這幀圖像,這是一個非常自然的選擇,并且與跟蹤器預測結果(綠色)基本對齊。兩幀後(右邊),尾巴的移動導緻ground-truth中心坐标發生變化,并且位于背景像素處。由于目标外觀的微小變化,這不一定是目标中心點坐标的自然表達。目标中心回歸就變為一個模糊任務,它對如何定義正确的值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是不清楚的。我們的算式通過“真”值的分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

對回歸任務中的模糊和不确定性進行了模組化。

考慮到圖2中的例子。當視訊中的狗擡起尾巴,質心發生改變,并且變成背景像素。另一方面,目标的外觀和位置基本沒有發生改變。是以,跟蹤器會預測出和之前相似的目标中心坐标。這說明目标中心點的定義是模糊的,并且跟蹤器對于質心也是困惑不解的。僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以通過有更寬的高置信度峰值來概括這個不确定性,這已經被證明(UPDT)是對訓練跟蹤模型有益的。不确定性的另一來源是标簽噪聲。準确的邊界框标注是一個困難的任務,尤其是當遮擋、運動模糊、小物體出現時,如圖3所示。換句話說,對于一個給定的物體,不同的标注器會有不同的結果。标注中的這個變化或噪聲常常在訓練網絡的過程中被忽視。

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

圖3 不同資料集中有噪聲、不準确或模糊的ground truth邊界框标注

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。這被我們的标簽分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

模組化。

我們提出将回歸問題的标簽噪聲和任務模糊性模組化為條件ground-truth分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。在給定标注

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下,它刻畫了ground-truth輸出值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的機率密度。沒有使用負對數似然(7),我們訓練網絡來最小化

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的KL散度,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

其中,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

表示等價于常數項。(8)中的第二行對應于兩個分布之間的交叉熵,丢棄的常數項是标簽分布的負熵

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。詳細推導過程見附錄A。

損失(8)整合了标注樣本

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的不确定性

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的資訊。與基于置信度的回歸方法中采用的僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

不同的是,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

被清楚的解釋為機率分布。實際上,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以通過獲得一小集合資料的多個注釋來經驗估計。在高斯模型

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況中,方差

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以被估計為這些标注的經驗方差,将

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

考慮為一個超參數。

3.3、訓練

在本節中,我們考慮基于損失(8)來訓練網絡參數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的方法。實際上,這需要估計(8)中的兩個積分。為了實作上述目的,我們考慮了兩種方法:網格采樣和重要性采樣的蒙特卡洛積分。

網格采樣:對于2維圖像坐标回歸問題,比如回歸跟蹤目标的中心點坐标,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

表示圖像中的位置。在這種情況下,平移不變性被用于參數化

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,其中

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是卷積神經網絡(CNN)。是以,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

就可以通過評估CNN在

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

處的輸出來獲得。令

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

為由CNN

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

評估的一緻網格位置集合。令

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

表示單個網格單元的面積。由CNN自動提供的一緻網格采樣就産生了(8)的近似,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

最終的loss就是對mini-batch中所有樣本i的

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

取平均獲得。

蒙特卡洛積分:對于更一般的回歸問題,網格采樣沒有提供任何計算上的優勢。相反,它很難擴充到更高次元,并且可能由于剛性網格導緻采樣偏差。是以在更一般的情況,我們采用基于蒙特卡羅的采樣方法。特别的,在訓練時,我們從分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中提取樣本

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。樣本被用于近似(8)中的兩個積分,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

為了準确的近似原始損失(8),所提出的分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

應該理想的包含标簽分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和有高預測密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的區域。論文[18]說明簡單的中心在

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的高斯混合可以滿足很多任務,包括邊界框回歸。

損失(10)需要對網絡

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

進行多重評估。實際上,計算機視覺架構很流行使用深度主幹特征提取器

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來産生圖像表達,比如ResNet。輸出值

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以在後一階段進行融合,是以

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。這使高計算量的特征提取

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

可以在所有樣本

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

間共享。這樣的結構已經被成功用于目标檢測和視覺跟蹤問題上。

4、跟蹤方法

我們将第3節介紹的一般化機率回歸方法用于視覺跟蹤中具有挑戰性和多樣性的任務。

4.1、baseline跟蹤器:DiMP

我們将最近的SOTA跟蹤器DiMP作為我們的baseline。如2.2節所說的那樣,DiMP模型包含兩個輸出分支。

目标中心點回歸(TCR):中心點回歸分支通過回歸中心點坐标來粗略确定目标在圖像中的位置。這一分支強調的是魯棒性而不是準确性。它包含一個線性卷積輸出層,網絡将輸出層權重

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

作為一個展開優化過程來預測,優化過程最小化了基于

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的判别學習損失。這使得跟蹤器能夠魯棒的區分目标物體和背景中的相似物體。幀

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中位置

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

處的目标中心點置信度采用類似(3)的方式預測,即

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,其中

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

是主幹特征提取器。這個分支是以元學習的設定來訓練的,有使用高斯僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和魯棒的

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

損失的基于置信度的目标函數,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

在跟蹤的過程中,目标中心點是通過在幀

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中的較大搜尋區域内稠密計算置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來回歸的。詳情見DiMP論文。

邊界框回歸(BBR):BBR分支采用了目标條件基于IoU-Net的結構。如同2.2節中讨論的那樣,該分支預測給定邊界框

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的置信度分數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。它利用作為僞标簽

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和(2)中的标準

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

損失

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的邊界框IoU來訓練。在跟蹤的過程中,BBR分支利用

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

關于

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的基于梯度的最大化方法來确定目标的準确邊界框。詳情見ATOM論文。

4.2、我們的跟蹤器:機率DiMP

我們介紹一個有全機率輸出表達的跟蹤方法,通過将我們的回歸方法整合到DiMP的兩個分支中來實作。樣例預測密度如圖4所示。

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

圖4 由目标中心和邊界框回歸分支分别預測的機率密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的可視化。密度以預測狀态(紅色框)為中心。該網絡捕捉了狀态中的不确定性,比如,對于具有挑戰性的情況,更大的方差或多模式。更多的例子和讨論見附錄D。

目标中心回歸:我們通過将(6)引入網絡輸出

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來代表目标中心點坐标

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的預測分布。因為該分支是全卷積的,我們用網格采樣方法(9)來近似用于訓練的KL散度損失(8)。條件ground-truth密度設定為高斯型

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,方差

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和DiMP中的僞标簽函數

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

所用的一樣(目标尺寸的1/4)。對于為中心回歸分支預測卷積權重

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的優化子產品,我們使用KL散度損失(9)和

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

正則化項。我們修改了基于最速下降的結構,采用二階泰勒展開,因為原始的高斯-牛頓近似僅限于最小二乘目标。我們的方法得益于一個事實:對于線性預測器

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,目标函數(9)在

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

中是凸的,還得益于梯度和Hessian的有效解析表達式。附錄B是對優化子產品的較長的描述。

邊界框回歸:我們使用DiMP和ATOM中相同的結構

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,然後将其用于我們的機率公式(6)。我們跟随DCTD論文的做法使用負似然估計損失(7)和基于MC的近似方法将ATOM BBR子產品擴充到機率設定上來。在本文的工作中,我們整合了标簽分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

來對邊界框标注中的噪聲和不确定性進行模組化,并使用MC采樣(10)來最小化KL散度(8)。特别的,我們使用了各向同性的高斯分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

,設定

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。為了公正的對比,我們使用了和DCTD論文中相同的分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

和邊界框參數。

細節:我們的整個網絡使用和DiMP中相同的方法和設定以端到端的形式一起訓練,并整合到https://github.com/visionml/pytracking的pytracking架構中。使用了LaSOT、GOT10k、TrackingNet和COCO資料集中的訓練部分,一共訓練50個epoch,每個epoch 1000次iteration。我們也保留了DiMP中的跟蹤步驟和設定,隻做了較小的改變,這是由我們的模型所提供的機率輸出表達所強制的。由于網絡輸出尺度的不同,我們相應的改變了确定目标是否丢失的門檻值和用于邊界框回歸的梯度步長。詳情見DiMP論文和PrDiMP代碼。

5、實驗

PrDiMP的ResNet18和ResNet50版本分别達到了40FPS和30FPS。

5.1、回歸模型的比較

比較了四種不同的方法。L2:标準平方損失,用于DiMP的邊界框回歸(BBR)。R-L2:魯棒的L2損失(11),用于DiMP的目标中心點回歸(TCR)。NLL:機率負對數似然方法(7)。Ours:用4.2節中描述的KL散度(8)來訓練。

跑了5遍求平均值。作者在OTB-100、UAV123和NFS資料集上評估了重疊精度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

(即IoU重疊度超過

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的幀所占百分比)和

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

5.2、标簽不确定性分析

5.3、SOTA

更多結果見附錄C

6、總結

我們提出了一個基于機率的回歸方法,在給定輸入

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的情況下,網絡被訓練來預測輸出

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的條件密度

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

。密度由結構自己來參數化,進而使得表達高度靈活的分布成為可能。網絡通過最小化标簽分布

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

的KL散度來訓練,

[CVPR2020論文(目标跟蹤方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

用于對标注噪聲和任務模糊性進行模組化。當用于跟蹤任務,我們的方法超過DiMP,在6個資料集上達到SOTA。

繼續閱讀