An Experimental Survey on Correlation Filter-based Tracking
本文參考文章《An Experimental Survey on Correlation Filter-based Tracking》
這篇文章中,作者對近年來基于相關濾波方法的視覺跟蹤的有關研究進行了總結。作者通過一個統一的架構,總結了11種方法,回顧了這些算法的貢獻,圖表1做出了總結。
一般來說,濾波器的訓練機制對于基于相關濾波跟蹤的算法來說是相當重要的。相關濾波器方法大緻可以從以下幾個方面改進:(1)更好的訓練機制、(2)提取更好的特征、(3)減輕尺度變化帶來的問題、(4)采用基于塊的跟蹤政策、(5)采用長期跟蹤。
一、基于相關濾波的跟蹤架構
根據已有的相關濾波算法,一般的工作架構可以總結如下(圖1): (1)相關濾波器是根據從視訊的第一幀中目标位置提取的圖像塊中訓練、學習得到的; (2)對于随後的每一幀,從上一幀目标位置的區域提取圖像塊用來檢測; (3)可以從原始的輸入資料中提取大量特征,通常情況下,為了平滑結果,我們會加上一個cosine window; (4)我們利用餘弦傅裡葉變換類替代卷積操作,會使計算效率大幅提升; (5)通過傅裡葉變換之後,我們會得到響應圖譜,具有最大響應值的位置就是我們要預測的目标的位置; (6)提取估計位置的目标的外觀,用來訓練和更新相關濾波器。
用數學語言表述如下: 我們讓X表示輸入,h表示相關濾波器。在實際任務中,X可以是原始的圖像塊,也可以是提取的特征。假設^表示的是一個向量的傅裡葉變換。根據卷積定理,循環卷積等于頻域的元素之間的乘積:
表示的是傅裡葉變換的逆變換,
表示的是元素之間的乘積,*表示的一個矩陣的複共轭矩陣。
訓練濾波器時,我們首先定義一個期望的相關輸出y。然後用目标的執行個體和相關濾波器來滿足如下式子:
解這個式子,我們可以得到:
通過轉到頻域計算,對于一個n*n大小的圖像塊,計算複雜度會由
下降到
。我們可以看到這個加速效果是非常的顯著的。
二、相關濾波的訓練機制
A、傳統的訓練方法
最簡單的情況,從一個圖像上截取一個模闆,用它來對于目标産生頂峰。但是這種方法有時候對于背景也會産生一個很高的響應。為了解決這個問題,一些方法通過抑制負樣本的響應,保留正樣本的響應來訓練。但是這種硬性的限制有時候并不能取得一個良好的效果。有一種叫做平均所有的濾波器(ASEF)的方法,通過平均所有訓練得到的濾波器來得到一個一般的濾波器。盡管這種方法取得了不錯的效果,但是他需要大規模的樣本用來訓練,這就制約了它的跟蹤速度。
B、适應性的相關濾波
MOSSE(最小均方誤差和輸出)方法在ASEF的基礎上做出了一些改進,提高了效率。
1)、MOSSE:根據上面公式(2)(3)我們可以很容易的計算出相關濾波器。因為這樣得到的濾波器不夠魯棒,是以需要大量的訓練樣本,為了更好的将這些訓練樣本映射到他們期望的輸出,MOSSE方法通過最小化這些樣本的真實值與期望輸出值的均方誤差和,得到相關濾波器h。這個計算轉化到頻域,計算方式如下:
i表示的是每一個訓練樣本的索引。通過解這個式子可以得到:
2)、Regularized ASEF:通過稍微改變原始的形式,ASEF也可以應用到有效的跟蹤中。每次隻用一個樣本,通過公式(4)得到一個濾波器:
然後通過計算所有的濾波器的平均值的方式得到一個更一般的濾波器:
但是,原始的ASEF是不穩定的,因為公式(7)中的分母可能會特别小。通常在應用的時候,為了使系統更加穩定,可以在分母上加上一個正則項。
C、核相關濾波
所有基于上述方法的性能會有一定的限制,因為ASEF和MOSSE濾波器可以被看做是一個簡單的線性分類器。通過使用核函數,可以是相關濾波方法的性能更好。
一些算法提出,相關濾波可以通過引進脊回歸問題和循環矩陣來有效的利用核。
1)、Ridge Regression Problem:通過将相關濾波器看作是一個分類器,我們可以通過找到第i個訓練樣本和他對應的标簽之間的關系來訓練。我們假設他們的關系是通過這樣一個函數式得到的,訓練問題可以看做是最小化如下這樣一個目标函數:
w表示的是參數。
是正則化參數,為了阻止過拟合。
是損失函數。
對于函數
,它可以是一個線性操作。通過求解上面的公式(8),w可以通過一個閉解的形式得到:
X表示的是一個矩陣,他的每一行代表一個訓練樣本,y表示的對應樣本的标簽,I是機關矩陣。值得注意的是,如果要是在頻域計算的話,
應該用他的 厄密矩陣替換,即
。
為了引入核函數來提高性能,輸入資料可以通過
映射到一個非線性的特征空間中,這樣w就可以通過輸入的線性組合來表示
。然後
就變成了如下的形式:
表示的是核函數。假設K是核矩陣,它的元素為
。這樣的話公式(8)就可以利用核函數求解:
為了減少公式(11)中求矩陣逆運算的複雜度,我們引入了循環矩陣。
2)、Circulant Matrix:一般情況下我們都是通過随機采樣擷取樣本的。但是,通過使用循環矩陣,我們可以非常容易的在目标的周圍擷取訓練樣本而不會犧牲速度。
對于一個樣本
,我們可以得到一個循環矩陣X,如下所示:
循環矩陣有很多有趣的性能,比如,他們的和、乘積以及逆運算也都是循環行列式。此外,一個循環矩陣可以用它的基準向量的離散傅裡葉變換對角化:
F是離散傅裡葉變化矩陣,它是用來計算一個向量
的離散傅裡葉變換。這樣一來w的解就可以表述為如下這種形式:
它可以用頻域上一個更加簡單的形式表示如下:
這個除法操作是元素級的。同樣的,如果核矩陣K也是一個循環矩陣的話,
也可以通過如下式子有效的計算:
k是循環矩陣K的基準向量,同樣,可以得到:
3)、Detection:對于新來的一幀,我們可以通過訓練得到的參數
和一個基準樣本x來檢測得到。如果新樣本是z,那麼置信圖可以通過如下式子得到:
和ASEF、MOSSE方法一樣,y值最大的位置就是目标的位置。
D、密集時空上下文跟蹤器
替代訓練優化問題,STC設計學習一個似然分布,它被定義為目标定位在位置
的先驗機率:
表示的似然,o表示的是目前場景中目标的描述。
讓
表示目标中心的位置。
表示的是
周圍的區域。于是上下文資訊就可以通過
來定義。
表示的是
處的圖檔的強度。通過計算
的邊緣機率分布,得到:
模組化了空間上下文資訊和目标位置之間的關系,
模組化了目标的外觀資訊。
因為沒有對
的直接表達,是以我們定義了如下的式子來表述:
h可以是一些計算兩個輸入向量(
) 之間差異的操作。為了去除周圍相似目标的幹擾,h應該不是徑相對稱的,簡而言之,
應該是不相等的。
對于
,可以定義如下:
表示的高斯函數的權重,定義如下:
是正則化參數。
為了訓練
,期望輸出分布
可以通過手工設計。如果知道目标是在場景的中間,
可以被定義為如下形式:
b也是正則化參數,
是尺度參數,
控制着分布的形狀。接下來,聯合上面的式子可以得到:
通過引進卷積定理,我們得到:
這樣就可以得到訓練的
,對于新來一幀圖像,
可以通過下面的式子計算得到:
同樣的,
最大值的位置就是目标的新的位置。
E、更新機制
根據上面介紹的訓練機制,每一幀都會産生一個相關濾波器,是以将它和之前訓練好的濾波器合并對于我們得到一個魯棒的外觀模型是非常的重要的。
對于一個正則化的ASEF,一個一般的相關濾波器更新是通過平均所有學習到的濾波器,計算形式如下:
表示的學習率。STC也是采用這種方式更新的。
MOSSE是通過分别平均分子、分母來更新的,計算形式如下:
KCF,雙重空間系數
可以在頻域更新,計算形式如下:
通過如下式子更新:
z表示的從目前預測位置上的采樣。
魯棒的更新機制也要通過考慮長期更新來實作。如果一個目标丢失或者是被遮擋,學習他的外觀模型是有害的。為了避免學習誤判的樣本,一些人引進了長期跟蹤元件。比如,當檢測到有遮擋時,就停止更新;如果長期跟蹤元件具有更高的置信度,我們就重新重新整理我們的相關濾波器。
F、比較不同的訓練機制
對于ASEF,他的濾波器的産生是通過平均所有學習到的濾波器,但是MOSSE的濾波器則是通過平均所有的圖像訓練的到的。通過引入脊回歸問題和循環矩陣,核相關濾波器等。STC和他們則有很多不同的地方:(1)STC建立了目标及其上下文之間的關系,但是其他相關濾波跟蹤方法則用訓練的額濾波器模組化輸入的外觀;(2)STC得到的置信圖可以看做是給定的目前目标的先驗機率,但是其他跟蹤算法的置信圖的值表示的是相關分數;(3)STC可以進行任意尺度的估計,但是這一點對于其他跟蹤還是很困難的。