天天看點

[2015 Springer] Local Image Descriptor: Modern Approaches——1 Introduction

​​

持續更新中…

翻譯

本地圖像描述符:現代方法

——

作者:Bin Fan,Zhenhua Wang,Fuchao Wu

有關該系列的更多資訊,請通路​​http://www.springer.com/series/10028​​

前言1

在過去的15年中,特征點描述符已成為計算機視覺社群中必不可少的工具。它們是從圖像檢索到多圖像立體比對以及從表面重建到圖像增強等應用程式的重要組成部分。

從原始的SIFT向量開始,已經提出了很多方法來實作所需的視點和光照不變性,并達到了高性能水準。描述符通常表示為高維向量,例如128維SIFT或64維SURF向量。

當僅需要表示數百個點時,描述符的高次元并不是問題,但是當必須在計算和存儲資源有限的裝置上使用數百萬個裝置時,描述符就成為一個重大問題。例如,在将大型城市場景的所有描述符存儲在行動電話中以基于圖像的定位目的時,就會發生這種情況。這不僅需要大量存儲,而且速度慢且可能不可靠,因為大多數識别算法都依賴于最近鄰計算,并且計算長向量之間的歐幾裡得距離既不便宜也不理想。

解決這些問題的一種傳統方法是使用較短的描述符,這可以通過執行降維來實作。但是,近年來,使用二進制描述符已成為一種更好的選擇。通過使用現代處理器在硬體中計算漢明距離的能力,這些描述符不僅體積小得多,而且描述能力幾乎沒有損失,而且比浮點描述符要快得多。

由于有無數種方法來計算這樣的二進制描述符,從二進制化浮動描述符到通過使用适當的二進制測試從頭開始計算它們,選擇正确的描述符變得困難。這是從業者必須面對的挑戰,本書旨在幫助他們找到自己的出路。

本書從傳統的浮點數移到了依賴強度順序的浮點數,最後是二進制的浮點數。然後,示範了如何在實踐中使用它們,并通過對它們進行基準測試并為将來的研究提出建議來得出結論。由于本書涵蓋了從傳統到非常新的描述符的整個範圍,并對其進行了仔細的對比,是以,本書是計算機視覺領域很大一部分的寶貴指南。

Pascal Fua教授

IEEE院士

洛桑聯邦理工學院(EPFL)

前言2

人類通過視覺獲得有關其環境的絕大多數資訊。視覺也是建構可感覺和了解其環境的人工系統的關鍵元件。由于其廣泛的應用和重大的研究挑戰,計算機視覺是資訊技術中最活躍的研究領域之一。

近年來,有效描述圖像内容的方法已成為計算機視覺研究中非常感興趣的主題。圖像描述符在大多數計算機視覺系統和應用程式中起着關鍵作用。描述符的功能是将像素級資訊轉換為有用的形式,該形式可以捕獲成像場景的最重要因素,但對環境變化引起的無關方面不敏感。有效的描述符能夠忽略環境變化所引起的不相關方面。此外,應該在不損害該方法的描述能力的情況下進行此操作。盡管無關緊要的定義取決于應用程式,但最常見的情況與成像條件有關,例如照明,視角,比例,噪聲和模糊。目前,SIFT(尺度不變特征變換),HOG(定向梯度直方圖),LBP(局部二進制模式)及其變體是最有效和最常用的描述符,可提供有關圖像内容的補充資訊。在許多應用中,僅使用一個描述符是不夠的,但是應該使用不同描述符的适當組合。

圖像描述符通常以三種替代方式使用。一個是稀疏描述符,它首先檢測給定圖像中的顯着興趣點,然後對局部更新檔進行采樣并描述其不變特征。 SIFT是最常用的稀疏描述符。第二種方法基于對均勻間隔的單元格的密集網格進行計算。 HOG和SIFT是此任務的常用替代方法。通過對輸入圖像或區域進行定期采樣,可以密集使用普通紋理描述符。近年來,LBP已成為使用最廣泛的密集紋理描述符,但也可以用作稀疏局部描述符(如SIFT)或在像HOG的網格上計算。

自1990年代初期以來,我的個人研究就為本地二進制模式方法,其變體以及諸如面部圖像分析之類的不同應用做出了貢獻。 LBP方法的巨大成功表明,圖像描述符對于計算機視覺及其應用具有多麼重要的意義。

本書為本地圖像描述符提供了出色的概述和參考。在介紹之後,在第2章中,将回顧最常見的經典局部描述符,包括SIFT,SURF和LBP。第三章讨論了最近提出的基于強度階的描述符。第4章介紹了二進制描述符,例如Brief,ORB和BRISK,它們可提供與廣泛使用的興趣區域描述符(例如SIFT和SURF)相當的比對性能,但是提取時間非常快,并且所需的記憶體要求非常低,例如,在新興應用中使用計算能力有限的移動裝置。第5章提供了在諸如移動和3D重構的結構,對象識别,基于内容的圖像檢索以及同時定位和映射(SLAM)之類的現代應用問題中使用本地描述符的說明。第6章介紹了用于評估局部圖像描述符的常用基準,并提出了結論和一些未來的研究方向。

本書很好地概述了本地圖像描述符以及如何将它們用于解決各種計算機視覺問題。它還包含對該領域最重要論文的引用,使學生可以研究特定領域的更多細節。作者在寫這本書方面做得很出色。對于從事計算機視覺,圖像分析及其應用的研究人員,工程師和研究所學生而言,它将是寶貴的資源。

MattiPietikäinen教授

IEEE院士,IAPR院士

奧盧大學

前言

計算機視覺是計算機科學和人工智能的交叉學科。它旨在使計算機能夠像人一樣了解和感覺圖像和視訊,涵蓋許多典型任務,例如識别,重建,運動分析等。本地圖像描述符在大多數這些任務中起着關鍵作用。特别是自2004年系統提出尺度不變特征變換(SIFT)的裡程碑式工作以來,過去十年來,我們見證了基于局部描述符的各種視覺應用。經過10年的發展,在本地圖像描述領域提出了許多出色的方法,這些方法在許多應用中都可以勝過SIFT。

本書專門研究本地圖像描述符,涵蓋了經典方法和最新方法以及該領域的新興研究主題。它主要包括三個部分。第一部分介紹了在文獻中廣泛使用的經典局部描述符。第二部分着眼于現有技術,即最近基于強度順序開發了更健壯的方法,以及一些可能成為未來研究方向的新興方法。第三部分給出了局部描述符的一些實際應用示例。是以,通過閱讀本書,讀者可以快速了解什麼是本地圖像描述符以及它可以做什麼。由于本書中介紹了許多具有不同屬性的本地描述符,以及它們的優缺點,這對于正在尋找針對其特定應用或問題的解決方案的研究人員和從業人員來說将是有益的。

這本書提供了理論和實踐的豐富融合。它适合對計算機視覺感興趣的畢業生,研究人員和從業人員,既可以作為學習教材,也可以作為參考書。

我感謝洛桑聯邦理工學院(EPFL)的Pascal Fua教授邀請我作為他的實驗室通路學者。本書的大部分内容都是在這段時間内完成的。那是在這裡進行研究的快樂時光。我還要感謝中國科學院自動化研究所的胡占義教授,将我帶入計算機視覺世界,并對我的研究和職業生涯提出了寶貴建議。特别感謝CASIA的潘春紅教授在我的研究小組中一直支援我探索未知的科學世界。最後,感謝SpringerBriefs的出版團隊的協助。

本書的編寫得到了中國國家自然科學基金(No.61203277,61272394),北京自然科學基金會(No.4142057)和中國獎學金委員會的支援。

瑞士洛桑

範斌

2015年八月

目錄

1 引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 經典的本地描述符. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 尺度不變特征變換 (SIFT) . . . . . . . . . . . . . . . . . . 5

2.1.1 SIFT中的比例尺空間表示. . . . . . . . . . . . . . . . . 6

2.1.2 關鍵點檢測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 功能描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 加快了魯棒性 (SURF) . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 積分圖像. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2 SURF中的尺度空間表示 . . . . . . . . . . . . . . . . 11

2.2.3 尺度不變興趣點檢測 . . . . . . . . . . . . . . 14

2.2.4 方向配置設定和描述符的構造 . . . . . 14

2.3 局部二進制模式及其變異 . . . . . . . . . . . . . . . . . . . . . 16

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 基于強度順序的本地描述符. . . . . . . . . . . . . . . . . . . . . 25

3.1 序數和空間強度分布描述符 (OSID). . . . . 25

3.2 基于強度順序的特征描述池化 . . . . . . . . . 26

3.2.1 基于幾何的空間池分析 . . . . . 27

3.2.2 基于強度順序的更新檔分區. . . . . . . . . . . . . . . . 30

3.2.3 MROGH和MRRID描述符的構造 . . . . . . 31

3.3 用于特征描述的局部強度順序模式 . . . . . . . . . . 33

3.3.1 LIOP描述符的構造 . . . . . . . . . . . . . . . . 34

3.4 基于強度階的二進制描述符 . . . . . . . . . . . . . . . . . . . 34

3.4.1 次區域生成 . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4.2 區域不變式和成對比較 . . . . . . . . . 37

3.4.3 學習好的二進制描述符 . . . . . . . . . . . . . . . . . . 39

3.4.4 使用多個支援區域. . . . . . . . . . . . . . . . . . . 40

3.4.5 級聯過濾以加快比對速度 . . . . . . . . . . . 40

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Burgeoning方法:二進制描述符. . . . . . . . . . . . . . . . . . . . 43

4.1簡介:二進制健壯的獨立基本特征. . . . . . . 43

4.2 ORB:定向的FAST和旋轉的Brief. . . . . . . . . . . . . . . . . 44

4.2.1尺度不變FAST檢測器. . . . . . . . . . . . . . . . . . . . 45

4.2.2強度中心的方向計算. . . . . . . . . 45

4.2.3學習良好的二進制特性. . . . . . . . . . . . . . . . . . . . 46

4.3 BRISK:二進制魯棒和不變的可擴充關鍵點. . . . . . . 47

4.3.1關鍵點檢測. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.3.2方向配置設定和關鍵點描述. . . . . . . 49

4.4 FREAK:快速視網膜關鍵點. . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4.1描述符的構造. . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4.2與FREAK的節奏比對. . . . . . . . . . . . . . . . . . . 51

4.5 FRIF:快速魯棒不變特征. . . . . . . . . . . . . . . . . . . . . . 52

4.5.1 FALoG檢測器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.2混合二進制描述符. . . . . . . . . . . . . . . . . . . . . . . . 53

4.6通過監督資訊學習二進制描述符. . . . . . . . 54

4.6.1從原始映像更新檔開始. . . . . . . . . . . . . . . . . . . . . . . . . 55

4.6.2來自中間表示. . . . . . . . . . . . . . . . 62

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65歲

5視覺應用程式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.1運動和3D重建的結構. . . . . . . . . . . . . . . 69

5.2對象識别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.3基于内容的圖像檢索. . . . . . . . . . . . . . . . . . . . . . . . . 77

5.4同時定位和映射(SLAM). . . . . . . . . . . . 81

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6資源和未來工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.1資料集和評估協定. . . . . . . . . . . . . . . . . . . . . . . . 89

6.1.1圖像比對基準. . . . . . . . . . . . . . . . . . . 89

6.1.2對象識别基準. . . . . . . . . . . . . . . . . 92

6.1.3圖像檢索基準. . . . . . . . . . . . . . . . . . . 93

6.2結論和今後的工作. . . . . . . . . . . . . . . . . . . . 95

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

第1章

簡介本地圖像描述符是一種矢量(浮動類型或二進制類型),用作本地圖像的簽名。這種表示的目的是使局部圖像盡可能獨特,同時保持對各種圖像轉換(包括光度和幾何圖像轉換)的魯棒性,包括視點更改(平面外旋轉),比例更改,平面内旋轉,圖像通過實作這些特征,可以容易地在從不同位置拍攝的同一場景的圖像之間或相似圖像之間建立對應關系。然後,基于這些對應關系建構了許多計算機視覺應用程式,例如3D重建[1],圖像針迹[16],對象/執行個體識别[10]等[13、15、22]。

但是,設計一個出色的本地圖像描述符(對各種圖像轉換具有高度區分性和魯棒性)并不是一件容易的事。實際上,判别能力和魯棒性是局部描述符的兩個沖突因素,不能同時加以很好的照顧。一種極端的情況是,我們可以使用本地圖像中所有像素的強度作為其描述符。它是如此獨特,以至于即使局部圖像的微小變化也會導緻其描述符之間的巨大差異。是以,它一點也不健壯。另一方面,如果我們使用統計量(例如平均值)來表示局部圖像,則它對于許多轉換非常魯棒,但僅具有非常低的判别能力。結果,該領域的研究目的是設計不同的方法來在判别能力和魯棒性之間進行權衡。

尺度不變特征變換(SIFT)[10]是局部圖像描述領域的一個裡程碑式的工作。它已被廣泛用于之前描述的許多視覺應用中,并在很大程度上啟發了該領域稍後提出的許多本地圖像描述符。

在行人檢測中廣泛使用的定向梯度直方圖(HoG)[5]是一個示例。另一個例子是加速魯棒特征(SURF)[3],它通過使用積分圖像技術加快SIFT的計算速度,同時保持可比的比對性能。 SURF在許多需要快速處理的應用中是SIFT的替代品,但與SIFT相比,其比對性能稍差一些。這是因為盡管SURF可以在基準資料集中獲得與SIFT相當甚至更好的性能[11],但在實際情況下有時還是不如SIFT。

自從提出SIFT以來已有十多年了,并且已經提出了許多方法。同時,關于設計更好的本地圖像描述符的一些新技術和新見識不斷湧現。是以,本書旨在及時總結過去的成就,并介紹一些新興但蓬勃發展的技術。我們還介紹了局部圖像描述符在其中發揮關鍵作用的幾種典型應用。最後,我們想給讀者一些建議,希望他們通過描述有用的評估協定和基準資料集來對此領域進行研究,并總結現有工作并列出未來工作的一些可能的方向。

本書的其餘部分安排如下:

•第2章介紹了一些經典的本地描述符,這些描述符已在計算機視覺社群中廣泛使用。這些描述符包括SIFT [10]和SURF [3],它們不僅對寬基線圖像比對,而且對許多進階計算機視覺應用(例如圖像分類和檢索)都具有深遠的影響。同時,本章還介紹了廣泛使用的本地二進制模式(LBP)[12]及其變體。

•第3章詳細介紹了一系列基于強度順序的最近提出的方法,用于特征描述。盡管梯度方向分布在特征描述中已顯示出其有效性,但由于強度對光照變化的敏感性,強度在很大程度上被研究界忽略。然而,最近的工作(例如,局部強度階模式(LIOP)[19],基于多支援區域階的梯度直方圖(MROGH)[7],區域不變性的序數和空間資訊(OSRI)[21])使我們重新認識了我們。注意它。通過使用強度順序,某些方法不僅在區分能力上更強,而且在魯棒性和緊湊性上都比SIFT更好。本章将介紹這種方法。

•第4章介紹了二進制描述符,由于其在大規模和實時應用中的潛力,近年來已變得越來越流行。這些二進制描述符包括二進制健壯的獨立元素特征(BRIEF)[4],面向FAST和旋轉的Brief(ORB)[14],二進制健壯和不變的可伸縮關鍵點(BRISK)[8],快速視網膜關鍵點(FEARK)[2]。 ,快速魯棒不變特征(FRIF)[20]和一些基于學習的特征[6、9、17、18]。

參考文獻

  1. Agarwal, S., Snavely, N., Simon, I., Seitz, S., Szeliski, R.: Building Rome in a day. In: International Conference on Computer Vision, pp. 72–79 (2009)
  2. Alahi, A., Ortiz, R., Vandergheynst, P.: FREAK: Fast retina keypoint. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 510–517 (2012)
  3. Bay, H., Ess, A., Tuytelaars, T., Gool, L.V.: SURF: speeded up robust features. Comput. Vis.Image Underst. 110(3), 346–359 (2008)
  4. Calonder, M., Lepetit, V., Ozuysal, M., Trzcinski, T., Strecha, C., Fua, P.: BRIEF: computing a local binary descriptor very fast. IEEE Trans. Pattern Anal. Mach. Intell. 33(7), 1281–1298 (2012)
  5. Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 886–893 (2005)
  6. Fan, B., Kong, Q., Trzcinski, T.,Wang, Z., Pan, C., Fua, P.: Receptive fields selection for binary feature description. IEEE Trans. Image Process. 23(6), 2583–2595 (2014)
  7. Fan, B., Wu, F., Hu, Z.: Rotationally invariant descriptors using intensity order pooling. IEEE Trans. Pattern Anal. Mach. Intell. 34(10), 2031–2045 (2012)
  8. Leutenegger, S., Chli, M., Siegwart, R.: BRISK: Binary robust invariant scalable keypoints.In: International Conference on Computer Vision, pp. 2548–2555 (2011)
  9. Liu, W., Wang, J., Ji, R., Jiang, Y.G., Chang, S.F.: Supervised hashing with kernels. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 2074–2081 (2012)
  10. Lowe, D.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 60(2), 91–110 (2004)
  11. Mikolajczyk, K., Schmid, C.: A performance evaluation of local descriptors. IEEE Trans.

    Pattern Anal. Mach. Intell. 27(10), 1615–1630 (2005)

  12. Ojala, T., Pietikainen, M., Harwood, D.: A comparative study of texture measures with classification based on feature distributions. Pattern Recogn. 29, 51–59 (1996)
  13. Philbin, J.,Chum,O., Isard, M., Sivic, J., Zisserman,A.: Object retrievalwith large vocabularies and fast spatial matching. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 1–8 (2007)
  14. Rublee, E., Rabaud, V., Konolige, K., Bradski, G.: ORB: An efficient alternative to SIFT or SURF. In: International Conference on Computer Vision, pp. 2564–2571 (2011)
  15. Sironi, A., Tekin, B., Rigamonti, R., Lepetit, V., Fua, P.: Learning separable filters. IEEE Trans.

    Pattern Anal. Mach. Intell. 37(1), 94–106 (2015) 16. Szeliski, R.: Image alignment and stitching: a tutorial. Found. Trends Comput. Graph. Vis. 2, 1–104 (2006)

  16. Trzcinski, T., Christoudias, M., Fua, P., Lepetit, V.: Boosting binary keypoint descriptors. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 2874–2881 (2013)
  17. Trzcinski, T., Lepetit, V.: Efficient discriminative projections for compact binary descriptors.

    In: European Conference on Computer Vision, pp. 228–242 (2012)

  18. Wang, Z., Fan, B.,Wu, F.: Local intensity order pattern for feature description. In: International Conference on Computer Vision, pp. 603–610 (2011)
  19. Wang, Z., Fan, B., Wu, F.: FRIF: Fast robust invariant feature. In: British Machine Vision Conference (2013)
  20. Xu, X., Tian, L., Feng, J., Zhou, J.: OSRI: a rotationally invariant binary descriptor. IEEE Trans. Image Process. 23(7), 2983–2995 (2014)
  21. Zhang, J.,Marszalek,M., Lazebnik, S., Schmid,C.: Local features and kernels for classification of texture and object categories: a comprehensive study. Int. J. Comput. Vis. 73(2), 213–238 (2007)

繼續閱讀