天天看點

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

此部分是計算機視覺部分,主要側重在底層特征提取,視訊分析,跟蹤,目标檢測和識别方面等方面。對于自己不太熟悉的領域比如錄影機标定和立體視覺,僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章,個人非常喜歡,也列出來了。

33. SIFT

關于SIFT,實在不需要介紹太多,一萬多次的引用已經說明問題了。SURF和PCA-SIFT也是屬于這個系列。後面列出了幾篇跟SIFT有關的問題。

[1999 ICCV] Object recognition from local scale-invariant features

[2000 IJCV] Evaluation of Interest Point Detectors

[2006 CVIU] Speeded-Up Robust Features (SURF)

[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

[2014 CVPR] TILDE: A Temporally Invariant Learned DEtector

[2015 TGRS] SAR-SIFT: A SIFT-LIKE ALGORITHM FOR SAR IMAGES

[2017 GRSL] Remote Sensing Image Registration With Modified SIFT and Enhanced Feature Matching

[2017 CVPR] GMS :Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence

翻譯

TILDE:一個時間不變的學習探測器

作者:Yannick Verdie,Kwang Moo Yi

摘要 -我們引入了一種基于學習的方法,可以在天氣和光照條件急劇變化的情況下檢測可重複的關鍵點,而最新的關鍵點檢測器對這些關鍵點的檢測器非常敏感。我們首先從相同的角度拍攝的多個訓練圖像中确定好的關鍵候選對象。然後,我們訓練回歸器來預測得分圖,其最大點就是那些點,以便可以通過簡單的非最大抑制來找到它們。

由于沒有标準的資料集可以測試這些變化的影響,是以我們建立了自己的資料集,并将其公開提供。我們将證明,在這種具有挑戰性的條件下,我們的方法明顯優于最新方法,同時在未經訓練的标準牛津資料集上仍能實作最新性能。

1 引言

關鍵點檢測和比對是解決許多計算機視覺問題(例如圖像檢索,對象跟蹤和圖像配準)的重要工具。自從1980年代引入Moravec,Forstner和Harris拐角檢測器[24、11、12]以來,已經提出了許多其他建議[37、10、28]。當比例尺和視點改變或圖像模糊時,有些會表現出出色的可重複性[23]。但是,如圖1所示,當在一天的不同時間,不同的天氣或季節在室外采集圖像時,其可靠性會大大降低。嘗試比對早晨和傍晚,冬季和夏季在晴天和惡劣天氣下拍攝的圖像時,這是一個嚴重的障礙。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖1:使用加速魯棒特征(SURF)[3]和我們的方法進行圖像比對的示例。 兩個關鍵點檢測器使用相同數量的關鍵點和描述符[20]。 檢測到的關鍵點顯示在第三行中,重複的關鍵點顯示為綠色。 對于SURF,白天圖像中僅檢測到一個關鍵點。 另一方面,無論燈光變化如何,我們的方法都會傳回許多常見的關鍵點。1   

  1 數字最好以彩色顯示。

  

在本文中,我們提出了一種學習關鍵點檢測器的方法,該方法可提取在這種挑戰性條件下穩定的關鍵點,并允許在如圖1所示的困難情況下進行比對。為此,我們首先介紹一種簡單但有效的方法來識别訓練圖像中潛在的穩定點。然後,我們使用它們來訓練回歸器,該回歸器将生成分數圖,其值是這些位置的局部最大值。通過首先在新圖像上運作它,我們可以通過簡單的非最大抑制來提取關鍵點。我們的方法受到最近提出的算法的啟發[31],該算法依靠回歸從線性結構的圖像中提取中心線。為了我們的目的使用這個基本思想要求我們開發一種對複雜外觀變化具有魯棒性的新型回歸器,以便它能夠有效,可靠地處理輸入圖像。

正如成功地将機器學習應用于描述符[5,36]和邊緣檢測[8]一樣,在關鍵點檢測[27,34]的背景下,以前也已經使用了學習方法來減少查找機器學習時所需的操作數量。與手工制作方法相同的要點。然而,盡管進行了廣泛的文獻搜尋,我們僅發現了一種嘗試通過學習提高關鍵點可靠性的方法[35]。該方法側重于學習分類器以篩選出最初檢測到的關鍵點,但取得的改進有限。這可能是因為他們的方法是基于純分類的,而且還因為它不容易找到分類員首先要學習的良好關鍵點。

結果可能是,目前沒有設計用于測試關鍵點檢測器對此類時間變化的魯棒性的标準基準資料集。是以,我們根據許多戶外場景存檔(AMOS)[15]中的圖像和全景圖像建立了自己的圖像,以驗證我們的方法。除了标準的牛津資料集[23]之外,我們還将使用我們的資料集,以證明我們的方法在可重複性方面明顯優于最新技術。為了鼓勵對此重要主題進行進一步的研究,我們将其與代碼一起公開釋出。總而言之,我們的貢獻是三方面的:

•我們引入了“臨時不變學習檢測器”(TILDE),這是一種基于回歸的新方法,用于提取在天氣,季節和一天中的時間變化引起的劇烈光照變化下可重複的特征點。

 •我們提出了一種有效的方法來生成所需的“良好學習要點”教育訓練集。

 •我們建立了一個新的基準資料集,用于評估在不同時間和季節捕獲的室外圖像上的特征點檢測器。

在本文的其餘部分中,我們首先讨論相關工作,概述我們的方法,然後詳細介紹基于回歸的方法。最後,我們将我們的方法與最新的關鍵點檢測器進行了比較。

2.相關工作

手工關鍵點探測器

大量工作緻力于開發效率更高的特征點檢測器。即使出現在1980年代的方法[24、11、12]仍被廣泛使用,但此後已經開發了許多新方法。 [10]提出了基于通用螺旋模型的SFOP檢測器,以使用結點和斑點。 [14]和[30]的WADE檢測器使用對稱性來獲得可靠的關鍵點。借助SIFER和D-SIFER,[22,21]使用餘弦調制高斯濾波器和10階高斯導數濾波器來更可靠地檢測關鍵點。總體而言,這些方法始終如一地提高了标準資料集上關鍵點檢測器的性能[23],但在應用于具有時間差異的室外場景時,性能仍然會嚴重下降。

手工方法的主要缺點之一是它們無法輕松地适應環境,是以缺乏靈活性。例如,當校準錄影機時,SFOP [10]效果很好,而将WADE [30]應用于具有對稱性的對象時,效果很好。然而,它們的優勢并不容易被我們解決的問題所延續,例如發現類似的戶外場景[16]。

學習的關鍵點檢測器盡管關鍵點檢測器的工作主要集中在手工方法上,但已經提出了一些基于學習的方法[27、35、13、25]。通過FAST,[27]引入了機器學習技術來學習快速角檢測器。但是,在他們的案例中,學習僅旨在加快關鍵點提取過程。擴充版本FAST-ER [28]中也考慮了可重複性,但它沒有發揮重要作用。 [35]訓練WaldBoost分類器[33]在預先對齊的訓練集上學習具有高重複性的關鍵點,然後根據分類器的分數篩選出一組初始關鍵點。他們的方法稱為TaSK,可能與我們的方法最相關,因為他們使用預先對齊的圖像來建構訓練集。但是,其方法的性能受到所使用的初始關鍵點檢測器的限制。

最近,[13]提出要學習一種分類器,該分類器可以為運動結構(SfM)應用程式檢測可比對的關鍵點。他們通過觀察在SfM管道中保留了哪些關鍵點來收集可比對的關鍵點,并學習這些關鍵點。盡管他們的方法顯示出顯着的加速效果,但仍然受到初始關鍵點檢測器品質的限制。 [25]通過随機采樣學習卷積濾波器,并尋找應用于立體視覺測距法時姿态估計誤差最小的濾波器。

不幸的是,他們的方法僅限于線性濾波器,而線性濾波器在靈活性方面受到限制,目前還不清楚如何将他們的方法應用于立體視覺測距法以外的其他任務。

我們提出了一種學習關鍵點檢測器的通用方案,并為此任務指定了一種新穎的高效回歸器。我們将其與最先進的手工方法以及TaSK進行比較,因為它是文獻中最接近的方法,在一些資料集上。

3.學習強大的關鍵點檢測器

在本節中,我們首先概述基于回歸的方法,然後說明如何建構所需的訓練集。我們将在以下部分中對算法進行形式化并更詳細地描述回歸器。

3.1 我們的方法概述

讓我們首先假設我們有一組相同場景的訓練圖像,它們是從相同的角度捕獲的,但在不同的季節和一天中的不同時間,例如圖2(a)。讓我們進一步假設,我們已經在這些圖像中确定了我們認為可以在不同成像條件下一緻找到的一組位置。我們在下面的3.2節中提出了一種實用的方法。讓我們将正樣本稱為每個訓練圖像中位于這些位置的圖像塊。遠離這些位置的貼片是陰性樣本。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖2:我們的方法概述。 我們依靠一堆訓練圖像,這些圖像是從同一視點但在不同光照下捕獲的(a),以及一種選擇要學習的關鍵點的簡單方法。 我們在圖像塊上訓練回歸器以傳回關鍵點位置處的峰值(b),例如(b),而遠離這些位置的小值。 将該回歸變量應用于新圖像的每個更新檔,可以得到一個得分圖,例如(c)中的得分圖,通過尋找具有較大值的局部最大值,可以從中提取出(d)中的關鍵點。

為了學習在新的輸入圖像中找到這些位置,我們建議訓練回歸器為輸入圖像的給定尺寸的每個面片傳回一個值。這些值應具有與圖2(b)所示的正樣本相似的峰值形狀,并且我們還鼓勵回歸變量對負樣本産生盡可能小的分數。如圖2(c)所示,我們可以通過簡單地尋找回歸器傳回值的局部最大值來提取關鍵點,并通過簡單的門檻值處理來丢棄低值的圖像位置。此外,我們的回歸器還經過訓練,可以在圖像堆棧中的相同位置傳回相似的值。這樣,即使照明條件發生變化,回歸器也會傳回一緻的值。

3.2 建立訓練集

如圖3所示,要建立我們的正樣本和負樣本資料集,我們首先從一天中不同時間和不同季節捕獲的室外網絡攝像頭收集了一系列圖像。我們從AMOS資料集[15]中确定了幾種合适的網絡攝像頭-可以長時間固定,不受雨淋等影響的網絡攝像頭。我們還使用了位于建築物頂部的攝像頭捕獲的全景圖像。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖3:來自網絡攝像頭資料集的示例資料。 網絡攝像頭資料集由來自不同位置的六個場景組成:(a)五個場景取自許多戶外場景存檔(AMOS)資料集[15],即StLouis,墨西哥,Chamonix,Courbevoie和Frankfurt。 (b)建築物屋頂的全景場景,可顯示360度全景。

為了收集訓練樣本集,我們首先在該資料集的每個圖像中獨立檢測關鍵點。我們使用SIFT [20],但是也可以考慮使用其他檢測器。然後,我們從具有最小比例的關鍵點開始疊代檢測到的關鍵點。如果在大多數圖像中大約相同的位置檢測到關鍵點,則該位置很可能是學習的不錯選擇。在實踐中,如果兩個關鍵點的距離小于SIFT估計的比例,則我們認為這兩個關鍵點大約位于同一位置,并且我們會保留最佳的100個重複位置。然後,由所有圖像(包括未檢測到關鍵點的圖像)中的更新檔組成一組正樣本,并以檢測的平均位置為中心。

這種簡單的政策具有幾個優點:我們僅保留最可重複的關鍵點進行訓練,而丢棄很少發現的關鍵點。我們還引入了缺少高度可重複關鍵點的更新檔作為陽性樣本。這樣,我們可以專注于可以在不同條件下可靠檢測的關鍵點,并糾正原始檢測器的錯誤。

要建立一組陰性樣本,我們隻需在遠離用于建立一組陽性樣本的關鍵點的位置處提取更新檔。

4.高效的分段線性回歸器

在本節中,我們首先介紹我們的回歸器的形式,将其有效地應用于圖像中的每個面片,然後描述所建議的目标函數的不同術語,以進行可靠地檢測關鍵點的訓練,最後我們說明如何我們優化回歸器的參數以最小化此目标函數。

4.1 分段線性回歸

我們的回歸器是使用廣義鉸鍊超平面(GHH)表示的分段線性函數[4,38]:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中x是從圖像更新檔中提取的圖像特征構成的向量,ω是回歸參數的向量,可以分解為ω= [w>11T,...,w>MNT,δ1,..., δN] T。所述WNM載體可以被視為線性濾池。 ΔN被限制的參數是-1或+1。 N和M是控制GHH複雜度的元參數。作為圖像特征,我們使用LUV色彩空間的三個分量以及在x色塊的每個像素處計算出的圖像梯度(水準和垂直梯度以及梯度量)。

[38]表明,任何連續的分段線性函數都可以用等式(1)表示。它非常适合我們的關鍵點檢測器學習問題,因為将回歸器應用于圖像的每個位置僅涉及簡單的圖像卷積和逐像素最大運算符,而回歸樹則需要對圖像和節點的随機通路,而CNN涉及較高的大多數層的三維卷積。此外,我們将表明,此公式還有助于整合不同的限制,包括對相鄰位置的響應之間的限制,這些限制對于提高關鍵點提取的性能很有用。

與其簡單地以類似于[31]的方式來預測從距離最近的關鍵點的距離而得出的得分,不如說是将區分關鍵點附近的圖像位置和關鍵點附近的圖像位置加以區分也很重要。離這很遠。回歸器針對接近關鍵點的圖像位置傳回的值應該在關鍵點位置具有局部最大值,而遠離關鍵點的位置的實際值無關緊要,隻要它們足夠小以通過簡單的門檻值丢棄它們即可。是以,我們首先引入一個類似于分類的術語,該術語強制将這兩種不同類型的圖像位置之間進行分隔。我們還依賴于強制響應以在關鍵點位置具有局部最大值的術語,以及随時間調整回歸變量響應的術語。總而言之,我們在回歸參數ω上最小的目标函數L可以寫成三個項的和:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

我們在下面詳細介紹這三個術語。

4.2 目标函數

在本小節中,我們将較長的描述等式(2)中引入的目标函數的三個術語。每個術語的影響都将根據經驗進行評估,并在5.4節中進行讨論。

分類損失LC

如上所解釋,該術語對于将接近關鍵點的圖像位置與遠離關鍵點的圖像位置很好地分開是有用的。如傳統的SVM [7]所示,它依賴于最大保證金損失。特别是,我們将其定義為:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中γc是一個元參數,yi∈{-1,+ 1}是訓練樣本xi的标簽,K是訓練資料的數量。

形狀調整器損耗Ls

為了在關鍵點位置具有局部最大值,我們強制回歸器的響應在這些位置具有特定形狀。對于每個正樣本i,我們通過定義與所需響應形狀h相關的損耗項來強制響應形狀,類似于[31]中使用的,如圖2(b)所示:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中,x,y是相對于貼片中心的像素坐标,而α,β元參數會影響形狀的清晰度。但是,我們隻想強制執行一般形狀,而不要強制響應的規模,以不幹擾類似分類的術語Lc。是以,我們引入了一個附加術語,定義為:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中*表示卷積,Kp是正樣本數; γs是對将通過交叉驗證估計的項進行權重的元參數。 ηi(n)= argmaxm wnmT xi 僅用于對影響max算子的回歸響應的濾波器施加形狀限制。

事實證明,在傅立葉域中對該術語進行優化更為友善。如果我們将wnm,xi 和 h 的2D傅立葉變換分别表示為Wnm,Xi 和H,則通過應用Parseval定理和卷積定理,方程(5)變為2。

2 參見附錄補充材料中的附錄。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

加強響應形狀的這種方式是[26]方法對任何類型形狀的概括。在實踐中,我們用有效學習的所有積極訓練樣本的平均值來近似Si。為了簡化計算,我們還使用了Parseval定理和Ashraf等人的工作[2]中提出的特征映射。

時間調節器Lt

為了增強回歸器随時間的可重複性,我們強制回歸器在訓練圖像堆棧上的相同位置具有相似的響應。隻需添加定義為的Lt即可:

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

其中Ni是與xi相同的圖像位置處的樣本集,但來自堆棧的其他訓練圖像。 γt仍然是對該項進行權重的元參數。

4.3 學習分段線性回歸器

優化在對訓練樣本應用主成分分析(PCA)進行降維以減少要優化的參數數量之後,我們通過類似于梯度提升的貪婪方法求解方程(2)。我們最初從一組空的超平面wn,m開始,然後疊代添加新的超平面,以使目标函數最小化,直到達到所需的數量(在實驗中使用N = 4和M = 4)。為了估計要添加的超平面,我們像廣泛使用的LibLinear庫[9]中一樣,應用了一個信任區域牛頓法[19]。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖4:(a)通過我們的方法在StLouis序列上學習的原始96個線性濾波器。 每行對應于一個不同的圖像特征,分别是水準圖像梯度,垂直圖像梯度,梯度的大小以及LUV顔色空間中的三個顔色分量。 (b)使用[32]的方法為每個次元分别學習24個可分離的濾波器。 每個原始過濾器都可以近似為可分離過濾器的線性組合,可以非常有效地将其與輸入圖像進行卷積。

初始化後,我們随機地一次周遊超平面,并使用相同的牛頓優化方法對其進行更新。圖4(a)顯示了我們的方法在StLouis序列上學習的濾波器。我們使用對數尺度的網格搜尋執行簡單的交叉驗證,以估計驗證集上的元參數γc,γs和γt。

逼近為了進一步加快回歸器的速度,我們使用[32]中提出的方法用可分離濾波器的線性組合來近似學習的線性濾波器。具有可分離濾波器的卷積比具有不可分離濾波器的卷積明顯快得多,并且近似值通常很好。圖4(b)顯示了這種近似濾波器的一個例子。

5.Results

在本節中,我們首先描述我們的實驗設定,并在網絡攝像頭資料集和更标準的Oxford資料集上給出定量和定性結果。

5.1 實驗設定

我們将我們的方法與SIFT,SURF,SFOP,WADE,MSER,FAST-9,LCF,SIFER和TaSK 3進行比較。在下文中,我們的完整方法将表示為TILDE-P。在使用24個可分離的濾波器對分段線性回歸濾波器進行近似之後,TILDE-P24表示相同的方法。

3有關比較方法的實施細節,請參見補充材料中的附錄。

為了評估回歸器本身,我們還将其與其他兩個回歸器進行了比較。第一個回歸标記為TILDE-GB,基于增強回歸樹,是[31]中用于中心線檢測的關鍵點到關鍵點檢測的改編,其實作所用的參數與原始工作相同。我們嘗試的第二個回歸器,稱為TILDE-CNN,是一個卷積神經網絡,其架構類似于LeNet-5網絡[17],但具有一個額外的卷積層和一個最大池層。第一,第三和第五層是卷積層。第一層的分辨率為28×28,過濾器的尺寸為5×5,第三層的過濾器的尺寸為10,尺寸為12×12,過濾器的尺寸為5×5,第五層的過濾器,尺寸為50,尺寸為4×4,和尺寸為3×3的濾鏡。第二,第四和第六層是大小為2×2的最大合并層。第七層是一個與前一層完全連接配接的500個神經元的層,其後是第八層,是具有S形激活功能的完全連接配接的層,最後是最後的輸出層。對于輸出層,我們使用l2 回歸成本函數。

5.2 定量結果

我們在網絡攝像頭資料集和牛津資料集上使用與[28]相同的可重複性度量,徹底評估了我們方法的性能。可重複性定義為在兩個對齊的圖像中一緻檢測到的關鍵點數。如[28]中所述,當重複投影到同一張圖像時,我們考慮的關鍵點間隔小于5個像素。但是,可重複性度量有兩個警告:首先,可以多次計算接近幾個預測的關鍵點。而且,如果關鍵點的數量足夠多,則随着關鍵點的密度變高,即使是簡單的随機采樣也可以實作高可重複性。

是以,我們通過兩個修改使該度量更能代表性能:首先,我們隻允許将關鍵點與其最近的鄰居關聯,換句話說,在評估可重複性時不能多次使用關鍵點。其次,我們将關鍵點的數量限制為一個給定的小數目,這樣在随機位置選擇關鍵點的結果的可重複性得分僅為2%,在實驗中報告為可重複性(随機2%)。

請注意,當為所有圖像使用1000個關鍵點時,我們還包括結果,我們将其稱為Oxford 1000,以與先前的論文進行比較,例如[28]。表1彙總了定量結果。

表1:我們最好的回歸器的可重複性性能。 最好的結果以粗體顯示。 當使用分段線性回歸器時,我們的方法可提供最高的可重複性。 請注意,在牛津資料集上,使用相對少量的可分離過濾器近似原始過濾器時,性能會稍好一些,這可能是因為近似過濾器趨于平滑。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

5.2.1網絡攝像頭資料集的可重複性

圖5給出了我們網絡攝像頭資料集的可重複性得分。圖5-頂部顯示了我們的方法在每個序列上進行訓練并在相同序列上進行測試時的結果,圖像集分為不相交的序列,驗證和測試集。圖5的底部顯示了将我們在一個序列上訓練的檢測器應用于Webcam資料集中看不到的序列時的結果。當使用專門針對每個序列訓練的檢測器時,我們的性能明顯優于最新技術。此外,盡管在我們對看不見的序列進行測試時差距縮小了,但我們仍然比所有比較的方法都差很多,顯示了我們方法的泛化能力。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖5:網絡攝像頭資料集的重複性得分。 上:在相應序列上訓練的每個序列的平均重複性得分。 下:在一個序列上進行訓練時的平均重複性得分(訓練序列的名稱在每個圖下方給出),并在其他序列上進行了測試。 盡管底圖上的間隙減小了,但是在兩種情況下,我們的方法都明顯優于最新技術,這表明我們的方法可以推廣到看不見的場景。

5.2.2牛津資料集的可重複性

在圖6中,我們還在牛津資料集上評估了我們的方法。從這個意義上講,該資料集更簡單,因為它不會顯示網絡攝像頭資料集的劇烈變化,但它是評估關鍵點檢測器的參考。是以,在此資料集上評估我們的方法很有趣。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖6:牛津資料集的重複性得分。 我們的方法在Webcam資料集的Chamonix序列上進行了訓練,并在Oxford資料集上進行了測試。

與其在此資料集上學習新的關鍵點檢測器,不如使用從網絡攝像頭資料集中使用Chamonix序列學習的檢測器。我們的方法仍然可以達到最先進的性能。在自行車,樹木和魯汶影像(它們是室外場景)的情況下,我們甚至明顯優于最新方法。請注意,盡管我們目前在學習和檢測中不考慮規模,但對于規模變化較大的Boat也可以獲得良好的結果。由于我們認為較少的關鍵點,是以此處顯示的可重複性得分低于先前的工作[23,28]。如前所述,考慮大量關鍵點可以人工提高可重複性得分。

5.3 定性結果

在圖7中,我們還給出了在不同天氣條件下比對在不同日期捕獲的具有挑戰性的圖像對的任務的一些定性結果。我們的比對流程如下:我們首先使用要比較的不同方法在兩個圖像中提取關鍵點,計算關鍵點描述符,然後使用RANSAC計算兩個圖像之間的單應性。由于此比較的目的是評估關鍵點而不是描述符,是以我們将SIFT描述符用于所有方法。請注意,我們也嘗試使用其他描述符[3,29,6,1,18],但是由于比對圖像之間的巨大差異,隻有具有地面真實方向和比例尺的SIFT描述符才起作用。我們将我們的方法與SIFT [20],SURF [3]和FAST-9 [28]檢測器進行比較,所有方法使用相同數量的關鍵點(300)。即使在場景外觀如此劇烈的變化下,我們的方法也可以檢索圖像之間的正确變換。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖7:來自不同序列的幾幅圖像的定性結果。 從上到下:Courbevoie,法蘭克福和StLouis。 (a)使用地面真相變換,(b)SIFT檢測器,(c)SURF檢測器,(d)FAST-9檢測器和(e)我們的TILDE檢測器獲得的轉換對圖像。

5.4 三個損失項的影響

圖8通過評估沒有每個項的檢測器的性能,給出了對等式(2)的每個損失項的影響的評估結果。當僅使用分類損失作為TILDE-PC,同時使用分類損失和時間正則化作為TILDE-PT,以及使用分類損失和形狀正則化作為TILDE-PS時,我們将使用我們的方法。當所有三個術語一起使用時,我們将獲得最佳性能。請注意,形狀正則化可增強牛津(一個完全看不見的資料集)的可重複性,而時間正則化在我們測試與訓練集相似的圖像時會有所幫助。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖8:目标函數的三個項以及使用可分濾波器的近似項的影響。

5.5 計算時間

圖9給出了SIFT的計算時間以及我們方法的每個變體。 TILDE-P24離SIFT不太遠。請注意,我們的方法是高度可并行化的,而我們目前的實作并不受益于任何并行化。是以,我們認為可以通過更好的實作顯着加快我們的方法。

Computer Vision_33_SIFT:TILDE: A Temporally Invariant Learned DEtector——2014

圖9:我們的各種回歸器的完整流水線與SIFT檢測器的時間比較。 評估是在同一台計算機上以640×418圖像進行的。