編輯:郭凡
什麼是局部圖像特征? 基于傳統的圖像局部二值特征[j1] 的圖像識别與比對,有沒有更簡單的特征融合方法? 近日,SNG社交網絡營運部的高永強做了一個實驗:将目前四種性能較好的二值特征描述子進行融合,會怎樣? 實驗結果顯示,融合特征呈現最好性能,而且這種融合方法同樣适用于多模型融合。他的這一“ 更簡單”的方法發表在《Neurocomping》期刊(隸屬于JCR分區二區)後,引起了較多關注,影響因子為3.317。下文為Jason整理的部分内容—— 敲黑闆,都是知識點!
作者簡介:
高永強博士,2015年畢業于中國科學院大學,主攻圖像處理、計算機視覺、機器學習及深度學習方向。目前在SNG社交網絡營運部資料中心知識發現組從事推薦及内容了解相關方面的工作,已發表期刊、會議多篇,并翻譯視覺界經典教材《計算機視覺,一種現代方法(第二版)》。
視覺屬于人類進階感覺,圖像在人類感覺環境中扮演着非常重要的角色。數字圖像處理由成像機器獲得,并可以對非人類所習慣的圖像源進行加工和處理。同一張圖,比如Fig. 1,人類看到的是圖像畫面,而計算機裡存儲的則是一串數字。這串資料矩陣就是圖像資料,如何從這些圖像資料中提取有效的圖像特征,就是計算機視覺處理的前期研究工作。

Fig. 1 人眼中的圖像與計算機眼中的圖像顯示
對于同一物體的識别,即圖像識别問題,一般會采取如下幾個任務步驟:
首先,提取圖像特征用于表征圖像;
其次,對提取特征進行模組化以迎合完成不同的任務需求。
比如,采用計算K-近鄰作為兩種特征之間的相似度判定,而完成測試圖與标準圖的比對或者識别。
在圖像分類中,常常采用某個分類器預測輸出這些特征标記的類别。同一個物體,由于受到拍攝環境、角度、距離、時期等影響,在圖像中會呈現出不同的變化,所得到的特征就會有所差別,是以構造具有高鑒别性和魯棒性的圖像特征顯得至關重要。(魯棒性,指控制系統在一定結構、大小的參數攝動下,維持其它某些性能的特性)
圖像特征是計算機視覺研究的基礎,也是機器學習領域構成模式重要的一部分。特征的構造方式一般具有三種:
第一種是基于興趣點構造,根據興趣點的鄰域建構圖像塊,采用人工設計或者學習的方式從該圖像塊提取特征,此類興趣點通常隻具有可鑒别性或者魯棒性的點,包括比如角點、斑點、T-型點或者顯著性點等;
第二種是基于稠密采樣構造,根據網格對圖像(或者多個尺度的圖像)進行劃分,在每個網格内進行人工設計或者經過學習的方式構造特征;
第三種是根據機器學習的理論架構,采用監督(非監督)的深度學習直接學習構造圖像特征,采用深度學習的架構,優勢在于對源圖像到标記分類,完成對特征提取和分類的聯合優化。
對于一幅完整的圖像,人們并非對所有的圖像内容感興趣,在圖像識别應用中,可以通過一些具有代表性或可鑒别的關鍵點來判斷該物體是什麼。是以,在計算機視覺領域,正常的物體識别的步驟:
首先,提取具有可鑒别性的關鍵點,并根據這些關鍵點的鄰域構造圖像塊;
其次,在這些圖像塊中進行特征提取用于表征這些具有可鑒别性的關鍵點;
再次,分别計算對應特征之間的距離,根據距離的大小判定兩個關鍵點是否相似(距離小于某個門檻值判定為相似);
最後,根據比對的關鍵點的個數來判定兩幅圖像是否相似。
特征描述子的應用領域很廣,比如人臉識别、圖像檢索、場景分類和視訊行為分析等。圖像特征作為計算機視覺的底層運算,在視覺的中層編碼/學習和高層語義了解中展現極大作用。
局部圖像特征對于分析和了解圖像内容具有很重要的作用。近年來,局部圖像特征(local descriptor)在圖像處理和計算機視覺領域取得巨大成功。
傳統的局部特征描述子建構如圖Fig. 2,建構步驟為:
首先,建構圖像塊(基于興趣點周圍形成圖像塊);
其次,将圖像塊進行歸一化處理(包括主方向旋轉和尺度歸一化);
最後,基于圖像塊建構特征描述子(比如根據梯度直方圖建構,SIFT、HoG、GLOH等)。
好的特征描述子除了具有很強的鑒别力,同時具有計算代價低、比對速度快的特性。而對于特征描述子的比對過程,往往采用彼此的距離作為度量準則,即兩特征描述子的距離(歐式距離或者漢明距離等)小于某個門檻值,認為該特征描述子對應的圖像塊是相似的,反之亦然。
然而,現實中,圖像的拍攝往往存在拍攝時期、拍攝角度、當天光照和不同距離等變化因素,同時對于同一物體可能對于本身具有一定的畸變,該特征描述向量應具有很高鑒别性和魯棒性。
Fig. 2 傳統的局部特征建構方法
在先前的工作中,SIFT描述子廣泛應用于多個視覺應用中,然而,描述子次元高、計算代價大等因素制約着該描述子在某些方面的應用,比如根據應用需求而需要處理更大資料量使得該特征很難在這些裝置進行實時處理,又比如運作在具有較低計算能力的移動裝置上……
由此可見,為了迎合這種需求,對應的特征描述子還應該具有快速生成、快速比對和合理利用記憶體的特性。Calonder et al.根據成對的像素值比較進而二值化,将這些二值字元串拼接得到二值特征,即BRIEF(Binary Robust Independent Elementary Features)。BIREF描述子在特征提取和比對過程中計算代價非常低,并在公開資料庫取得非常好的性能。
常見的構造二值特征描述子方式有兩種:
第一種,根據像素值之間的比較進行二值化,進而構成對應的特征描述子。BRIEF描述子對高斯随機形成的采樣對進行比較,将比較的結果進行二值化;BinBoost采用AdaBoost的方法對采樣對進行學習采樣,同時對采樣對進行比較構成二值描述子;
第二種,根據已有的浮點型特征做一次變換,進而構成相應的二值描述子,這是由于直接對像素值二值化魯棒性低。
這裡介紹兩種類型的二值特征:
第一類為基于Boost技巧采樣的二值特征建構方法,這類特征包括Binboost和BGM特征。他們采用boosting的方法去學複雜的非線性的局部二值特征表征,采用弱分類器族編碼特定的區域和有意義的特征屬性。Binboost和BGM的差別在于弱分類選擇的不同:BinBoost采用的是的弱分類器為許多梯度方向圖的線性組合;而BGM采用的是單個梯度方向圖。
第二類的二值特征建構方法為基于感受域進行采樣,包括RFD_R和RFD_G特征。RFD_G和RFD_R的差別在于感受域的定義不同,RFD_G是采用高斯函數定義的感受域,RFD_R是采用的矩形作為的感受域。Fig.3給出這三種二值特征的采用方式,其中Binboost和BGM采用左圖的采樣方式,RFD_R采用中間圖的采樣方式,RFD_G采用右圖的采樣方式。
Fig. 3 左圖為Binboost和BGM的采樣方式,中圖為RFD_R的采樣方式,右圖為RFD_G的采樣方式
将目前四種性能較好的二值特征描述子進行融合,這四種特征分别為BinBoost,BGM,和。給定訓練集P和N,分别代表正确比對對和錯誤比對對,我們目标是為了使得錯誤比對對之間的距離大于正确比對對之間的距離,dw(x,y)定義如下:
實驗資料主要采用廣泛使用的局部圖像塊資料集:Liberty, Yosemite和Notre Dame,見Fig. 4,從左到右順序依次來源于Notre Dame資料庫、Liberty資料庫和Yosemite資料庫,其中大小為原圖大小的四分之一,每個資料集包括超過400k的尺度歸一化和旋轉歸一化的局部圖像塊,其分辨率為64x64。每個圖像塊是由差分高斯檢測子或者多尺度的Harris角點檢測器檢測,并根據領域生成對應的圖像塊。每個資料子集提供有100k、200k和500k标準比對對,其中50%為正确比對對,另外50%為錯誤比對對。
采用經過差分高斯檢測子檢測得到的資料集,并将每個圖像塊調整分辨率到32x32,所有的圖像塊經過标準高斯分布進行濾波去噪。假陽性為95%時的召回率(FPR @95%)為測試結果,即當查找的正确比對對為95%時的錯誤率。
Fig.4部分局部圖像塊資料庫(Brown資料庫)
Fig. 5給出四種基特征與融合特征的比較結果,其中訓練資料集為Liberty資料庫,每個特征的次元不同,測試資料集為Yosemite資料庫和Notre Dame資料庫,且資料量大小為100k(包括50k正确比對對和50k錯誤比對對),FPR@95的錯誤率為彙報結果,“Opt”列,是由四種基特征的全部特征作為輸入,優化所得,即BinBoost、BGM、和對應特征次元分别為512、512、293和406位(b)。四種特征分别采用64、128、256 和全部可提供次元作為融合的每組次元。正如表格所示,融合特征都呈現最好的性能(最低的錯誤率)。
Fig. 5 實驗對比結果
這裡,我們提出一種非常簡單的特征融合的方法,并在局部二值特征的融合上取得了非常好的效果。更多的關于局部二值特征,以及特征融合的方法可以見我們最新的論文LMBD和RMGD。
http://www.sciencedirect.com/science/article/pii/S0925231217308755
http://www.whuang.org/papers/ygao2015_tip.pdf
【1】LMBD: Y. Gao, W. Huang, Y. Qiao, “Learning multiple local binary descriptors for image matching”, Nerocomputing, 2017
【2】RMGD: Y. Gao, W. Huang, Y. Qiao, “Local Multi-Grouped Binary Descriptor With Ring-Based Pooling Configuration and Optimization”, IEEE Transactions on Image Processing, 24(12), pp. 4820-4833, 2015.
【3】Binboost: L. V. Trzcinski T., Christoudias M., P. Fua, Boosting binary keypoint descriptors, in: Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2013,pp. 2874-2881.
【4】BGM: T. Trzcinski, V. Lepetit, E_cient discriminative projections for compact binary descriptors, in: Proc. IEEE Int. Conf. Eur. Conf. Comput. Vis., 2012, pp. 228-242.
【5】RFD: B. Fan, Q. Kong, T. Trzcinski, Z. H. Wang, C. Pan, P. Fua, Receptive felds selectioni for binary feature description, IEEE Trans. Image Process. (2014) 2583-2595.