原文連結

論文位址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

摘要

大多數性能優越的視覺目标跟蹤器很難有實時速度。在這篇文章中，我們提出了孿生候選區域生成網絡（Siamese region proposal network），簡稱Siamese-RPN，它能夠利用大尺度的圖像對離線端到端訓練。具體來講，這個結構包含用于特征提取的孿生子網絡（Siamese subnetwork）和候選區域生成網絡（region proposal subnetwork），其中候選區域生成網絡包含分類和回歸兩條支路。在跟蹤階段，我們提出的方法被構造成為單樣本檢測任務（one-shot detection task）。

我們預先計算孿生子網絡中的模闆支路，也就是第一幀，并且将它構造成一個檢測支路中區域提取網絡裡面的一個卷積層，用于線上跟蹤。得益于這些改良，傳統的多尺度測試和線上微調可以被舍棄，這樣做也大大提高了速度。Siamese-RPN跑出了160FPS的速度，并且在VOT2015,VOT2016和VOT2017上取得了領先的成績。

1.引言

與适當設計的最先進的基于相關濾波器的方法相比，基于離線訓練的基于深度學習的跟蹤器可以獲得較好的結果。關鍵是候選的孿生候選區域生成網絡（Siamese-RPN）。它由模闆分支和檢測分支組成，它們以端到端的方式對大規模圖像對進行離線訓練。受到最先進的候選區域提取方法RPN 的啟發，我們對相關feature map進行提議提取。與标準RPN不同，我們使用兩個分支的相關特征映射進行提議提取。在跟蹤任務中，我們沒有預定義的類别，是以我們需要模闆分支将目标的外觀資訊編碼到RPN要素圖中以區分前景和背景。

在跟蹤階段，作者将此任務視為單目标檢測任務（one-shot detection），什麼意思呢，就是把第一幀的bb視為檢測的樣例，在其餘幀裡面檢測與它相似的目标。

綜上所述，作者的貢獻有以下三點：

1.提出了Siamese region proposal network，能夠利用ILSVRC和YouTube-BB大量的資料進行離線端到端訓練。

2.在跟蹤階段将跟蹤任務構造出局部單目标檢測任務。

3.在VOT2015, VOT2016和VOT2017上取得了領先的性能，并且速度能都達到160fps。

2.相關工作

2.1 RPN

RPN即Region Proposal Network，是用RON來選擇感興趣區域的，即proposal extraction。例如，如果一個區域的p>0.5，則認為這個區域中可能是80個類别中的某一類，具體是哪一類現在還不清楚。到此為止，網絡隻需要把這些可能含有物體的區域選取出來就可以了，這些被選取出來的區域又叫做ROI（Region of Interests），即感興趣的區域。當然RPN同時也會在feature map上框定這些ROI感興趣區域的大緻位置，即輸出Bounding Box。

RPN詳細介紹：https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

2.2 One-shot learning

最常見的例子就是人臉檢測，隻知道一張圖檔上的資訊，用這些資訊來比對出要檢測的圖檔，這就是單樣本檢測，也可以稱之為一次學習。

3 Siamese-RPN framework

3.1 SiamFC

SiamFC詳細介紹：https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

所謂的Siamese（孿生）網絡，是指網絡的主體結構分上下兩支，這兩支像雙胞胎一樣，共享卷積層的權值。上面一支（z）稱為模闆分支（template），用來提取模闆幀的特征。φ表示一種特征提取方法，文中提取的是深度特征，經過全卷積網絡後得到一個6×6×128的feature map φ(z)。下面一支（x）稱為檢測分支（search），是根據上一幀的結果在目前幀上crop出的search region。同樣提取了深度特征之後得到一個22×22×128的feature map φ(x)。模版支的feature map在目前幀的檢測區域的feature map上做比對操作，可以看成是φ(z)在φ(x)上滑動搜尋，最後得到一個響應圖，圖上響應最大的點就是對應這一幀目标的位置。

SiamRPN：High Performance Visual Tracking with Siamese Region Proposal Network 孿生網絡摘要1.引言2.相關工作3 Siamese-RPN framework4. Tracking as one-shot detection5.實施細節

Siamese網絡的優點在于，把tracking任務做成了一個檢測/比對任務，整個tracking過程不需要更新網絡，這使得算法的速度可以很快（FPS：80+）。此外，續作CFNet将特征提取和特征判别這兩個任務做成了一個端到端的任務，第一次将深度網絡和相關濾波結合在一起學習。

Siamese也有明顯的缺陷：

1.模闆支隻在第一幀進行，這使得模版特征對目标的變化不是很适應，當目标發生較大變化時，來自第一幀的特征可能不足以表征目标的特征。至于為什麼隻在第一幀提取模版特征，我認為可能因為：

（1）第一幀的特征最可靠也最魯棒，在tracking過程中無法确定哪一幀的結果可靠的情況下，隻用第一幀特征足以得到不錯的精度。

（2）隻在第一幀提取模闆特征的算法更精簡，速度更快。

2.Siamese的方法隻能得到目标的中心位置，但是得不到目标的尺寸，是以隻能采取簡單的多尺度加回歸，這即增加了計算量，同時也不夠精确。

網絡訓練原理

如圖所示，上一幀的目标模闆與下一幀的搜尋區域可以構成很多對的模闆-候選對（exemplar-candidate pair），但是根據判别式跟蹤原理，僅僅下一幀的目标與上一幀的目标區域(即 exemplar of T frame-exemplar of T+1 frame）屬于模型的正樣本，其餘大量的exemplar-candidate pair都是負樣本。這樣就完成了網絡結構的端到端的訓練。

3.2 Siamese-RPN

左邊是孿生網絡結構，上下支路的網絡結構和參數完全相同，上面是輸入第一幀的bounding box，靠此資訊檢測候選區域中的目标，即模闆幀。下面是待檢測幀，顯然，待檢測幀的搜尋區域比模闆幀的區域大。中間是RPN結構，又分為兩部分，上部分是分類支路，模闆幀和檢測幀的經過孿生網絡後的特征再經過一個卷積層，模闆幀特征經過卷積層後變為2k×256通道，k是anchor數量，因為分為兩類，是以是2k。下面是邊界框回歸支路，因為有四個量[x, y, w, h]，是以是4k右邊是輸出。

3.3 孿生特征提取子網絡

預訓練的AlexNet，剔除了conv2 conv4兩層。φ(z)是模闆幀輸出，φ(x)是檢測幀輸出

3.4 候選區域提取子網絡

分類支路和回歸支路分别對模闆幀和檢測幀的特征進行卷積運算：

A^{cls}{w×h×2k}=[\psi(x)]{cls}×[\psi(z)]{cls}\

A^{reg}{w×h×4k}=[\psi(x)]{reg}×[\psi(z)]{reg}

$A^{cls}{w×h×2k}$包含2k個通道向量，中的每個點表示正負激勵，通過交叉熵損失分類；$A^{reg}{w×h×4k}$包含4k個通道向量，每個點表示anchor和gt之間的dx,dy,dw,dh，通過smooth L1 損失得到:

\delta[0]=\frac{T_x-A_x}{A_w}，

\delta[1]=\frac{T_y-A_y}{A_h}\

\delta[2]=ln\frac{T_w}{A_w}，

\delta[3]=ln\frac{T_h}{A_h}

Ax, Ay, Aw, Ah是anchor boxes中心點坐标和長寬； Tx, Ty, Tw, Th是gt boxes，為什麼要這樣呢，因為不同圖檔之間的尺寸存在差異，要對它們做正規化。

smoothL1損失：

smooth_{L1}(x,\sigma)=\begin{cases} 0.5\sigma^2x^2, & \text |x|<\frac{1}{{\sigma^2}} \ |x|-\frac{1}{{2\sigma^2}}, & \text |x|≥\frac{1}{{\sigma^2}} \end{cases}

3.5 訓練階段：端到端訓練孿生RPN

因為跟蹤中連續兩幀的變化并不是很大，是以anchor隻采用一種尺度，5種不同的長寬比（與RPN中的3×3個anchor不同）。當IoU大于0.6時是前景，小于0.3時是背景。

4. Tracking as one-shot detection

平均損失函數L：

\min_{W'} \frac{1}{n} \sum_{i=1}^n L(\psi(x_i;w(z_i,W')),l_i)

如上所述，讓z表示模闆patch，x表示檢測patch，函數φ表示Siamese特征提取子網，函數ζ表示區域建議子網，則一次性檢測任務可以表示為：

\min_{W} \frac{1}{n} \sum_{i=1}^n L(\zeta(\psi(x_i;W);\psi(z_i;W)),l_i)

如圖，紫色的部分像原始的Siamese網絡，經過同一個CNN之後得到了兩個feature map，藍色的部分是RPN。模闆幀在RPN中經過卷積層，$ \phi (x){reg}$ 和 $ \phi (x){cls}$ 當作檢測所用的核。

簡單的說，就是預訓練模版分支，利用第一幀的目标特征輸出一系列weights，而這些weights，包含了目标的資訊，作為檢測分支RPN網絡的參數去detect目标。這樣做的好處是：

（1）模闆支能學到一個encode了目标的特征，用這個特征去尋找目标，這會比直接用第一幀的feature map去做比對更魯棒。

（2）相比原始的Siamese網絡，RPN網絡可以直接回歸出目标的坐标和尺寸，既精确，又不需要像multi-scale一樣浪費時間。

經過網絡後，我們将分類和回歸特征映射表示為點集：

A^{cls}{w×h×2k}={(x_i^{cls},y_j^{cls},c_l^{cls})}\

A^{reg}{w×h×4k}={(x_i^{reg},y_i^{reg},dx_p^{reg},dy_p^{reg},dw_p^{reg},dh_p^{reg})}\

i∈[0,w),j∈[0,h),l∈[0,2k),p∈[0,k)

由于分類特征圖上的奇數通道代表正激活，我們收集所有$A^{cls}{w×h×2k}$中的前K個點，其中l是奇數，并表示點集為：

CLS^*={(x_i^{cls},y_j^{cls},c_l^{cls}){i∈I,j∈J,l∈L}}

其中I，J，L是一些索引集。

變量i和j分别編碼相應錨點的位置，l編碼相應錨點的比率，是以我們可以導出相應的錨點集合為：

ANC^={(x_i^{an},y_j^{an},w_l^{an},h_l^{an}){i∈I,j∈J,l∈L}}

此外，我們發現$A^{cls}{w×h×2k}$上ANC的激活得到相應的細化坐标為：

FEG^*={(x_i^{reg},y_j^{reg},dx_l^{reg},dy_l^{reg},dw_l^{reg},dh_l^{reg}){i∈I,j∈J,l∈L}}

因為是分類，$A^{cls}{w×h×2k}$選前k個點，分兩步選擇：

第一步，舍棄掉距離中心太遠的bb，隻在一個比原始特征圖小的固定正方形範圍裡選擇，如下圖：

中心距離為7，仔細看圖可以看出，每個網格都有k個矩形。

第二步，用餘弦窗（抑制距離過大的）和尺度變化懲罰（抑制尺度大變化）來對proposal進行排序，選最好的。具體公式可看論文。

用這些點對應的anchor box結合回歸結果得出bounding box：

x_i^{pro}=x_i^{an}+dx_l^{reg}*w_l^{an}\

y_j^{pro}=y_j^{an}+dy_l^{reg}*h_l^{an}\

w_l^{pro}=w_l^{an}*e^{dw_l}\

h_l^{pro}=h_l^{an}*e^{dh_l}

an就是anchor的框，pro是最終得出的回歸後的邊界框至此，proposals set就選好了。

然後再通過非極大抑制(NMS)，顧名思義，就是将不是極大的框都去除掉，由于anchor一般是有重疊的overlap，是以，相同object的proposals也存在重疊。為了解決重疊proposal問題，采用NMS算法處理：兩個proposal間IoU大于預設門檻值，則丢棄score較低的proposal。

IoU門檻值的預設需要謹慎處理，如果IoU值太小，可能丢失objects的一些 proposals；如果IoU值過大，可能會導緻objects出現很多proposals。IoU典型值為0.6。

5.實施細節

我們使用從ImageNet [28]預訓練的改進的AlexNet，前三個卷積層的參數固定，隻調整Siamese-RPN中的最後兩個卷積層。這些參數是通過使用SGD優化等式5中的損耗函數而獲得的。共執行了50個epoch，log space的學習率從10-2降低到10-6。我們從VID和Youtube-BB中提取圖像對，通過選擇間隔小于100的幀并執行進一步的裁剪程式。如果目标邊界框的大小表示為（w，h），我們以大小A×A為中心裁剪模闆更新檔，其定義如下：

(w+p)×(h+p)=A^2

其中p =(w + h)/2

之後将其調整為127×127。以相同的方式在目前幀上裁剪檢測更新檔，其大小是模闆更新檔的兩倍，然後調整為255×255。

在推理階段，由于我們将線上跟蹤制定為一次性檢測任務，是以沒有線上适應。我們的實驗是在帶有Intel i7,12G RAM，NVidia GTX 1060的PC上使用PyTorch實作的。

SiamRPN：High Performance Visual Tracking with Siamese Region Proposal Network 孿生網絡摘要1.引言2.相關工作3 Siamese-RPN framework4. Tracking as one-shot detection5.實施細節

摘要

1.引言

2.相關工作

2.1 RPN

2.2 One-shot learning

3 Siamese-RPN framework

3.1 SiamFC

網絡訓練原理

3.2 Siamese-RPN

3.3 孿生特征提取子網絡

3.4 候選區域提取子網絡

3.5 訓練階段：端到端訓練孿生RPN

4. Tracking as one-shot detection

5.實施細節

繼續閱讀

深度學習與圍棋：為AlphaGo訓練深度神經網絡13.1.1　AlphaGo的網絡架構13.1.2　AlphaGo棋盤編碼器13.1.3　訓練AlphaGo風格的政策網絡

蚪俠-遠端泛目錄[泛域名+泛目錄+泛内頁]-[代碼+漢字]幹擾-字型繁簡切換-蜘蛛欺騙-主動推送_鏡像版-V25版

深度學習的一些小記錄裡面有一部分是摘錄

自學記錄《深度學習500問》之深度學習基礎

問答機器人代碼封裝和對外提供接口代碼封裝和對外提供接口

數學模組化智能優化算法之神經網絡案例附Matlab代碼

突破！雙一流大學，首篇Nature！

PALM病理性近視預測 2021-07-04飛槳正常賽：PALM病理性近視預測 6月第3名方案一、賽題介紹

圖形處理單元(GPU)的演進

CogView: Mastering Text-to-Image Generation via Transformers翻譯摘要1.介紹2.方法3.Finetuning

深度學習之卷積01 卷積02 填充Padding03 步幅Stride04 卷積核的選擇05 多通道卷積參考

HDU 1402 A * B Problem Plus

通俗了解查準率(precision)和查全率(recall)

人工智能如何有效地運用于自然語言處理

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案