天天看點

Computer Vision_33_SIFT:LIFT: Learned Invariant Feature Transform——2016

此部分是計算機視覺部分,主要側重在底層特征提取,視訊分析,跟蹤,目标檢測和識别方面等方面。對于自己不太熟悉的領域比如錄影機标定和立體視覺,僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章,個人非常喜歡,也列出來了。

33. SIFT

關于SIFT,實在不需要介紹太多,一萬多次的引用已經說明問題了。SURF和PCA-SIFT也是屬于這個系列。後面列出了幾篇跟SIFT有關的問題。

[1999 ICCV] Object recognition from local scale-invariant features

[2000 IJCV] Evaluation of Interest Point Detectors

[2006 CVIU] Speeded-Up Robust Features (SURF)

[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

[2009 GRSL] Robust scale-invariant feature matching for remote sensing image registration

[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

[2012 ECCV] KAZE Features

[2012 ICCV] ORB_An efficient alternative to SIFT or SURF

[2014 CVPR] TILDE: A Temporally Invariant Learned DEtector

[2014 TGRS] A novel coarse-to-fine scheme for automatic image registration based on SIFT and mutual information

[2015 GRSL] An efficient SIFT-based mode-seeking algorithm for sub-pixel registration of remotely sensed images

[2015 TGRS] SAR-SIFT: A SIFT-LIKE ALGORITHM FOR SAR IMAGES

[2016 ECCV] LIFT Learned Invariant Feature Transform

[2016 JVCIR] An Improved RANSAC based on the Scale Variation Homogeneity

[2017 GRSL] Remote Sensing Image Registration With Modified SIFT and Enhanced Feature Matching

[2017 CVPR] GMS :Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence

翻譯

LIFT:學習的不變特征變換

作者:Kwang Moo Yi∗,1, Eduard Trulls∗,1, Vincent Lepetit2, Pascal Fua1

摘要 -我們介紹了一種新穎的深度網絡體系結構,該體系結構實作了完整的特征點處理管道,即檢測,方向估計和特征描述。盡管先前的工作已經成功地單獨解決了每個問題,但我們展示了如何在保持端到端的差異性的同時學習如何以統一的方式完成這三個問題。然後,我們證明了Deep管道在許多基準資料集上的性能優于最新方法,而無需重新訓練。

關鍵字:局部特征,特征描述符,深度學習

1 引言

本地功能在許多計算機視覺應用程式中起着關鍵作用。跨圖像查找和比對它們一直是大量研究的主題。直到最近,最好的技術還是依靠精心制作的功能[1-5]。在過去的幾年中,就像在計算機視覺的許多領域一樣,基于機器學習的方法,尤其是深度學習,已經開始優于這些傳統方法[6-10]。

但是,這些新算法僅解決了整個處理鍊中的單個步驟,包括檢測特征,計算特征方向以及提取魯棒的表示形式,使我們能夠在圖像之間進行比對。在本文中,我們介紹了一種新穎的Deep架構,該架構可同時執行所有三個步驟。我們證明了它比最先進的方法具有更好的總體性能,這在很大程度上是因為它允許對這些單獨的步驟進行優化以互相配合良好地運作。

我們的架構,我們稱為學習不變特征變換的LIFT,如圖1所示。它由互相饋送的三個元件組成:檢測器,方向估計器和描述符。每個模型都基于卷積神經網絡(CNN),并以最近的模型[6,9,10]為基礎進行了模組化,這些模型已被證明可以很好地完成這些單獨的功能。為了将它們網格化,我們使用空間變形器[11]來糾正給定檢測器和方向估計器輸出的圖像斑塊。我們還用軟argmax函數[12]代替了非局部最大抑制(NMS)的傳統方法。這使我們能夠保留端到端的可區分性,并形成一個仍可以通過反向傳播進行訓練的完整網絡,而我們所知的任何其他架構都不是這種情況。

另外,我們展示了如何以有效的方式學習這樣的管道。為此,我們建構了一個連體網絡,并使用由運動結構(SfM)算法産生的特征點對其進行訓練,該算法在不同視點和光照條件下捕獲的場景圖像上運作,以了解其權重。我們在不同規模提取的圖像塊上制定了此訓練問題,以使優化易于處理。在實踐中,我們發現不可能從頭開始訓練整個體系結構,因為各個元件都試圖針對不同的目标進行優化。相反,我們引入了針對特定問題的學習方法來克服此問題。它涉及到首先訓練描述符,然後将其用于訓練定向估計器,最後根據已學習的描述符和定向估計器來對檢測器進行訓練,進而在整個網絡中進行區分。在測試時,我們将在比例空間中周遊整個圖像的檢測器與僅處理關鍵點的方向估計器和描述符分離。

在下一節中,我們簡要讨論較早的方法。然後,我們将詳細介紹我們的方法,并證明它優于許多最新方法。

2 相關工作

有關局部特征的文獻很多,但總是圍繞着尋找特征點,計算其方向和進行比對。是以,在本節中,我們将分别讨論這三個要素。

2.1 特征點檢測器

特征點檢測的研究主要集中在尋找可以可靠估計其比例和旋轉度的獨特位置。早期的工作[13,14]使用圖像信号的一階近似值找到圖像中的拐角點。 FAST [15]使用了機器學習技術,但是隻是為了加快發現角點的過程。除了拐角點,SIFT [1]還檢測比例空間中的斑點; SURF [2]使用Haar過濾器來加快該過程。最大穩定極值區域(MSER)[16]檢測區域; [17]檢測區域。 SFOP [18]使用結點和斑點,而Edge Foci [19]使用邊緣來增強光照變化的魯棒性。最近,還提出了基于更複雜和精心設計的濾波器響應的特征點[5,20],以進一步增強特征點檢測器的性能。

與專注于更好的工程學的這些方法相反,在學習檢測器[21,22]的早期嘗試之後,[6]表明可以學習檢測器以提供比最新技術明顯更好的性能。在這項工作中,學習了分段線性卷積濾波器,即使光照和季節變化也能穩健地檢測特征點。不幸的是,這僅針對單個比例進行,并且是從資料集進行的,沒有視點變化。是以,我們從中汲取了靈感,但必須對其進行實質性擴充,以将其整合到我們的管道中。

2.2 方向估計

盡管事實上它在比對特征點中起着至關重要的作用,但與檢測或特征描述相比,估計區分方向的問題受到的關注明顯較少。結果,SIFT [1]引入的方法仍然是事實上的标準,甚至進行了一些小的改進,例如可以像ORB [4]那樣通過使用強度重心來加快它的速度。

與之不同的是,在最近的一篇論文中[9],該論文引入了一種基于深度學習的方法來預測穩定的方向。與最新技術相比,這産生了顯着的收益。我們将這種體系結構整合到我們的管道中,并在給定我們所學的描述符的情況下,展示了如何使用針對問題的教育訓練政策來對其進行教育訓練。

2.3 功能描述符

特征描述符旨在提供對顯着圖像斑塊的區分性表示,同時對諸如視點或照明變化之類的轉換具有魯棒性。通過引入SIFT [1]和SURF [2],SIFT [1]是通過梯度方向的局部直方圖計算得出的,該領域已經成熟,SURF [2]使用積分圖像表示來加快計算速度。沿着相似的路線,DAISY [3]依賴于定向梯度的卷積圖來近似直方圖,這在提取密集描述符時産生了很大的計算增益。

即使它們非常成功,這些手工制作的描述符現在也可以勝過已經學習的較新的描述符。這些範圍從無監督的哈希到基于線性判别分析的監督學習技術[23,24],遺傳算法[25]和凸優化[26]。最近的趨勢是使用經過大量資料訓練的CNN直接從原始圖像更新檔中提取特征。例如,MatchNet [7]訓練了一個暹羅CNN進行特征表示,然後訓練了一個完全連接配接的網絡來學習比較名額。 DeepCompare [8]表明,專注于圖像中心的網絡可以提高性能。 [27]的方法依靠類似的體系結構來獲得窄基線立體聲的最新技術結果。在[10]中,使用硬否定挖掘來學習緊湊的描述符,該描述符使用歐幾裡得距離來衡量相似性。文獻[28]的算法依靠樣本三元組來挖掘硬底片。

在這項工作中,我們依賴[10]的體系結構,因為訓練了相應的描述符并将其與歐幾裡得距離進行比較,與需要學習度量的描述符相比,歐幾裡得距離的适用範圍更廣。

3 方法

在本節中,我們首先根據圖2所示的暹羅架構來制定整個特征檢測和描述流程。接下來,我們讨論訓練網絡所需的資料類型以及如何收集資料。然後,我們将較長的描述教育訓練過程。

3.1 問題表述

我們使用圖像更新檔作為輸入,而不是完整圖像。由于大多數圖像區域不包含關鍵點,是以這使得學習可擴充而不會丢失資訊。更新檔是從SfM管道使用的關鍵點中提取的,如第3.2節所述。我們認為它們足夠小,可以假定它們在給定的比例下僅包含一個主要的局部特征,這将學習過程簡化為找到更新檔中最獨特的點。