[2015 Springer] Local Image Descriptor: Modern Approaches——2 Classical Local Descriptors

翻譯

本地圖像描述符：現代方法

——

作者：Bin Fan，Zhenhua Wang，Fuchao Wu

有關該系列的更多資訊，請通路*http://www.springer.com/series/10028*

1 引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 經典的本地描述符. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 尺度不變特征變換 (SIFT) . . . . . . . . . . . . . . . . . . 5

2.1.1 SIFT中的比例尺空間表示. . . . . . . . . . . . . . . . . 6

2.1.2 關鍵點檢測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 功能描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 加快了魯棒性 (SURF) . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 積分圖像. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2 SURF中的尺度空間表示 . . . . . . . . . . . . . . . . 11

2.2.3 尺度不變興趣點檢測 . . . . . . . . . . . . . . 14

2.2.4 方向配置設定和描述符的構造 . . . . . 14

2.3 局部二進制模式及其變異 . . . . . . . . . . . . . . . . . . . . . 16

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 基于強度順序的本地描述符. . . . . . . . . . . . . . . . . . . . . 25

3.1 序數和空間強度分布描述符 (OSID). . . . . 25

3.2 基于強度順序的特征描述池化 . . . . . . . . . 26

3.2.1 基于幾何的空間池分析 . . . . . 27

3.2.2 基于強度順序的更新檔分區. . . . . . . . . . . . . . . . 30

3.2.3 MROGH和MRRID描述符的構造 . . . . . . 31

3.3 用于特征描述的局部強度順序模式 . . . . . . . . . . 33

3.3.1 LIOP描述符的構造 . . . . . . . . . . . . . . . . 34

3.4 基于強度階的二進制描述符 . . . . . . . . . . . . . . . . . . . 34

3.4.1 次區域生成 . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4.2 區域不變式和成對比較 . . . . . . . . . 37

3.4.3 學習好的二進制描述符 . . . . . . . . . . . . . . . . . . 39

3.4.4 使用多個支援區域. . . . . . . . . . . . . . . . . . . 40

3.4.5 級聯過濾以加快比對速度 . . . . . . . . . . . 40

參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Burgeoning方法：二進制描述符. . . . . . . . . . . . . . . . . . . . 43

4.1簡介：二進制健壯的獨立基本特征. . . . . . . 43

4.2 ORB：定向的FAST和旋轉的Brief. . . . . . . . . . . . . . . . . 44

4.2.1尺度不變FAST檢測器. . . . . . . . . . . . . . . . . . . . 45

4.2.2強度中心的方向計算. . . . . . . . . 45

4.2.3學習良好的二進制特性. . . . . . . . . . . . . . . . . . . . 46

4.3 BRISK：二進制魯棒和不變的可擴充關鍵點. . . . . . . 47

4.3.1關鍵點檢測. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.3.2方向配置設定和關鍵點描述. . . . . . . 49

4.4 FREAK：快速視網膜關鍵點. . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4.1描述符的構造. . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4.2與FREAK的節奏比對. . . . . . . . . . . . . . . . . . . 51

4.5 FRIF：快速魯棒不變特征. . . . . . . . . . . . . . . . . . . . . . 52

4.5.1 FALoG檢測器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.2混合二進制描述符. . . . . . . . . . . . . . . . . . . . . . . . 53

4.6通過監督資訊學習二進制描述符. . . . . . . . 54

4.6.1從原始映像更新檔開始. . . . . . . . . . . . . . . . . . . . . . . . . 55

4.6.2來自中間表示. . . . . . . . . . . . . . . . 62

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65歲

5視覺應用程式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.1運動和3D重建的結構. . . . . . . . . . . . . . . 69

5.2對象識别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.3基于内容的圖像檢索. . . . . . . . . . . . . . . . . . . . . . . . . 77

5.4同時定位和映射(SLAM). . . . . . . . . . . . 81

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6資源和未來工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.1資料集和評估協定. . . . . . . . . . . . . . . . . . . . . . . . 89

6.1.1圖像比對基準. . . . . . . . . . . . . . . . . . . 89

6.1.2對象識别基準. . . . . . . . . . . . . . . . . 92

6.1.3圖像檢索基準. . . . . . . . . . . . . . . . . . . 93

6.2結論和今後的工作. . . . . . . . . . . . . . . . . . . . 95

參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

第2章古典本地描述符

**摘要：**經典的局部描述符是指多年前提出的，但對局部圖像描述及其相關應用的發展産生了深遠的影響。尺度不變特征變換(SIFT)和加速魯棒特征(SURF)是計算機視覺中兩個廣泛使用的描述符。特别是對于SIFT，它是從對象識别，圖像檢索到運動構造等各種應用程式的極受歡迎解決方案。而對于SURF，對于需要快速或接近實時的應用程式，它是首選。圖像比對，直到最近的二進制描述符蓬勃發展。另一個經典的局部特征是1990年代提出的局部二進制模式(LBP)。與許多變體一起，LBP在紋理分類和許多與面部相關的任務(例如，面部識别，面部檢測和面部表情識别)中無處不在。由于它們的受歡迎程度，我們選擇在本章中詳細介紹它們。

關鍵詞 SIFT SURF LBP标度空間表示浮點型描述符

2.1尺度不變特征變換(SIFT)

尺度不變特征變換(SIFT)[9]是最成功的局部描述符之一，已廣泛用于各種視覺任務，例如圖像分類，圖像檢索，圖像配準，姿勢估計等。 SIFT基本上包括特征檢測和特征描述。根據上下文和應用，有時SIFT僅指代其用于特征描述的方法，即SIFT特征描述符。為了清楚起見，術語“ SIFT關鍵點”通常用于訓示其檢測到的功能。

一般而言，SIFT是尺度不變的方法，同時保持了許多其他圖像變換的穩健性，包括平面内旋轉，較小的視角改變(由相機的平面外旋轉引起)，圖像模糊，照明和噪聲。 SIFT特征檢測器可實作尺度不變性及其對圖像旋轉的魯棒性，它可以檢測關鍵點及其尺度和參考方向。而通過構造SIFT描述符獲得對其他轉換的魯棒性。

2.1.1 SIFT中的比例尺空間表示

為了實作尺度不變性，SIFT在高斯尺度空間上運作以檢測關鍵點并構造其局部描述符。輸入圖像的高斯比例空間定義為通過将輸入圖像與逐漸增加的高斯方差卷積而獲得的一系列圖像。給定輸入圖像I(x，y)，其高斯卷積圖像可以表示為：

[2015 Springer] Local Image Descriptor: Modern Approaches——2 Classical Local Descriptors

其中G(σ)表示标準差為σ的高斯濾波器。是以，一組卷積圖像{L(x，y，σi)，i = 1、2，…，n}用來表示圖像I的高斯尺度空間。在實施SIFT時，σ增加了一個常數k，即σi+1 =kσi。

為了檢測對縮放變化具有魯棒性且具有高重複性的關鍵點，SIFT将DoG(高斯差分)尺度空間中的極值用作初始關鍵點，然後進行一些改進和調整以确定最終關鍵點(将在下一節中進行介紹)。為此，通過減去相鄰的圖像比例，在高斯比例空間的基礎上建構DoG比例空間：

高斯卷積的計算時間與圖像的大小以及使用的高斯核的大小呈正相關。是以，為了提高效率，通過将L(σi)與σ’i+1 =√(σi+12 - σi2)進行卷積來計算L(σi+1)，而不是直接對σi+1進行卷積。另一方面，SIFT還使用基于八度的結構表示比例空間。更具體地，将标度空間中的圖像劃分為八度音程，每個八度度使σ加倍，即标度。在每個八度音程中，它将刻度空間進一步劃分為s層，是以，ks = 2時，k = 21/s。正如我們稍後将描述的，SIFT沿着三個次元在DoG刻度空間中搜尋極值以進行關鍵點檢測。是以，它需要s + 2個DoG圖像來覆寫一個完整的八度。如圖2.1所示，兩個附加層用于第一層和最後一層中的關鍵點檢測。是以，需要s + 3高斯模糊圖像來生成這些s + 2 DoG圖像。在處理了一個八度之後，該八度中的第(s + 1)個圖像将進行2倍的下采樣，以在下一個八度中生成第一個圖像。這樣，整個八度音階将覆寫一組以恒定因子增加的音階，如圖2.1所示。

圖2.1當s = 3時，在SIFT中實作的标尺空間表示。DoG标尺空間(DoGSS)是通過減去高斯标尺空間(GSS)中的相鄰圖像而生成的。紅色值表示将用于3D極值搜尋的關鍵點檢測的比例。為了使這些比例尺始終相差k倍，必須在DoGSS的每個八度音程中生成s + 2圖像，在GSS中生成s + 3圖像。詳情請參閱文本

根據一些實驗，Lowe建議将σ設定為1.6 [9]。同時，為了獲得更穩定的關鍵點，他還建議将原始圖像加倍2倍，并用它來建構比例尺空間的第一個八度。

2.1.2關鍵點檢測

為了檢測尺度不變的關鍵點，SIFT首先通過将每個像素與其目前層中的8個鄰居以及上層和下層中的18個鄰居進行比較來搜尋D(x，y，σ)的局部最大值和最小值。然後，使用非最大抑制來濾除那些足夠接近但不穩定的局部極值，進而獲得離散位置和某些級别的預定義比例尺上的一組點。下一步是估計準确的位置(最多子像素)和比例。同時，重要的是要删除一些對比度較低的關鍵點以及沿邊緣定位較差的關鍵點，因為這兩種情況都會導緻不穩定的關鍵點。

關鍵點X0 =(x，y，σ)的精确定位是通過在X0的局部區域周圍拟合3D二次函數并取其極值的内插位置而獲得的。為此，我們首先必須将比例響應函數的原點，即DoG響應，移至X0。然後，将泰勒展開式應用于位移的D(x，y，σ)：

要獲得D(X)的極值，我們可以計算D(X)的導數并将其設定為零。這樣，我們得到以下方程式：

ΔX是極端點到原始點X0的偏移量，是以精煉的關鍵點位于X = X0 +ΔX處。值得注意的是，如果偏移ΔX在任何次元上均大于0.5，則表示極值位于更靠近X0的相鄰點的位置。在這種情況下，将X0更改為該相鄰點，并重複上述擷取偏移的過程，直到偏移中的所有尺寸均小于0.5。

将X = X0 +ΔX代入公式(2.3)，我們可以獲得其DoG值：

| D(X)|的極值小于0.03(假定像素值在[0,1]範圍内)的像素由于對比度低(對噪聲敏感)而被丢棄。

由于DoG函數将在邊緣産生強烈的響應，是以這種極值對噪聲不穩定，通常具有較大的定位誤差。同時，沿邊緣定位的點通常具有較不明顯的局部外觀，這将使得為它們提取區分描述符變得困難。由于這些原因，必須将它們丢棄。

除了在DoG尺度空間中的極端響應外，這些點在邊緣的主曲率也大，而在垂線方向的主曲率則小。這兩個曲率與Hessian矩陣H的特征值成正比，Hessian矩陣H在關鍵點的比例尺和位置計算為：

其中導數Dxx，Dxy，Dyy是通過擷取比例空間中相鄰樣本點的差來計算的。

幸運的是，直接計算H的特征值有點慢，這裡我們隻關注其兩個特征值之比，而不關注具體的特征值。假設兩個特征值均為正，并且當λ和rλ且r≥1時，它們滿足：

我們可以進一步獲得：

由于r≥1，tr(H)2 / Det(H)與r一起單調增加。結果，我們隻需要在tr(H)2 / Det(H)上設定一個門檻值即可丢棄具有較大r的點，該點對應于較大的主曲率和較小的曲率。在SIFT的實作中，将r設定為10。如果Det(H)為負(它将具有負特征值)，則将關鍵點視為不是極值而将其丢棄，但這很少發生。

關鍵點檢測的最後一步是為每個關鍵點配置設定方向。請注意，此步驟是可選的。如果任務不必旋轉處理圖像，則可以跳過此步驟，進而在效率和準确性上獲得更好的性能。否則，此步驟對于實作旋轉不變性很有用。關鍵點的方向取決于其範圍從圓形鄰域計算得出。具體來說，給定一個關鍵點(x，y，σ)，我們首先從尺度空間中取出最接近σ的高斯模糊圖像。在此圖像中執行以下所有操作，以便縮放不變。然後，從關鍵點周圍的局部圓形區域計算出梯度方向的直方圖(将360度量化為36個bin)。該圓形區域的半徑設定為4.5σ。除此區域中每個樣本點的梯度幅度外，還将其與直方圖相加時，還使用高斯函數(标準差為1.5σ)對其進行權重。最後，将對應于該直方圖中最高峰的方向作為該關鍵點的方向。對于在最高峰的80％之内的其他峰，其相應方向也将作為關鍵點的方向。是以，對于一個關鍵點，它可能會分為幾個關鍵點，它們的方向不同。值得指出的是，在計算與峰相對應的方向時，将抛物線拟合到以峰為中心的3個直方圖塊中，以對峰位置進行插值以獲得更好的精度。

2.1.3功能描述

在關鍵點檢測中，将檢測每個關鍵點及其位置，比例和方向。這些參數可用于構造局部描述符，以比例和旋轉不變的方式描述此關鍵點。簡而言之，如圖2.2所示，通過将這些參數定義的局部區域劃分為4×4網格，然後計算這些網格中的梯度方向直方圖，最後将這些直方圖連接配接在一起，進一步構造為機關向量作為描述符。

圖2.2通過累積和級聯4×4空間網格中的梯度方向分布來計算SIFT描述符。梯度方向由其大小和以關鍵點為中心的高斯權重函數權重。經Springer Science + Business Media的許可，從Lowe [9]轉載

首先，類似于關鍵點方向的計算，我們必須根據關鍵點的尺度在尺度空間中取出高斯模糊圖像。在此圖像中構造了SIFT描述符，以確定比例不變。然後，根據關鍵點比例σ從圖像中取出關鍵點位置周圍具有16×16個采樣點的局部區域。對于每個采樣點，計算其梯度大小和方向。請注意，要實作旋轉不變性，這些采樣點的坐标和梯度方向将相對于關鍵點方向進行旋轉。使用标準方差為1.5W(W是局部區域的寬度)的高斯權重函數對每個采樣點的幅度進行權重，以更加強調關鍵點附近的那些采樣點。同時，為了魯棒地在這些采樣點中移動以及對一些空間資訊進行編碼以提高差別性，将16×16局部區域進一步劃分為4×4網格。在每個網格中，基于梯度大小和高斯權重計算梯度方向的直方圖。将所有直方圖連接配接在一起以形成128維描述符。為了處理突然的照明變化，使用了兩步歸一化。首先将128描述符标準化為機關長度。然後，任何大于0.2的元素将被裁剪為0.2。裁剪後的向量将重新标準化為機關長度，作為最終的SIFT描述符。

從上面的過程中，我們可以看到SIFT實際上是累積了一個空間位置和梯度方向的3D直方圖，并由aGaussian函數和梯度幅度權重。為了提高其魯棒性并避免邊界效應，使用了軟配置設定。通過這種方式，采樣點根據其到每個倉中心的距離，對128維SIFT描述符中的8個相鄰倉起作用。

值得指出的是，Dalal和Triggs [4]提出的行人檢測著名的定向直方圖(HoG)具有與SIFT描述子相似的基本思想。它們都在描述的區域中的不同空間區域上積累定向的梯度響應，該梯度響應由梯度幅度權重。不同之處在于，HoG使用更多的重疊單元來收集定向梯度的直方圖，這些直方圖根據較大區域(塊)中的“能量”進行了歸一化。 HoG檢測視窗/所描述的區域被分成許多塊以獲得判别表示。如今，HoG已經成為一種特征提取的标準技術，可用于對象檢測，而不僅僅是行人檢測。

2.2加速的魯棒功能(SURF)

盡管SIFT對許多幾何和光度轉換具有區分性和魯棒性，但計算速度較慢，這在一定程度上限制了其應用。為了減輕這個問題，Bay等人[2]提出了一種通過修改SIFT以使其适應于積分圖像的SIFT的快速替代方案，該算法可以非常快速地進行計算。

他們的方法稱為加速魯棒特征(SURF)。它的算法流水線與SIFT相似，主要包括三個步驟：(1)輸入圖像的比例空間表示； (2)在尺度空間中檢測SURF關鍵點(興趣點)； (3)為關鍵點配置設定方向并構造其SURF描述符。我們将在以下各節中詳細介紹每個步驟。

2.2.1積分圖像

在正式介紹SURF的這些算法步驟之前，我們先簡單介紹一下SURF的核心積分圖像技術。根據定義，積分圖像IΣ在位置(x，y)的輸入是輸入圖像I中所有像素的總和，該像素由原點(圖像的左上角)和(x，y)形成的矩形區域内。是以，給定大小為m×n的圖像I，其積分圖像IΣ可計算為：

積分圖像的優點在于可以快速計算出任何直立的矩形區域上的強度之和。可以看出，一旦計算出積分圖像，對于任何直立的矩形區域，無論區域的大小如何，都隻需要三個加法即可獲得其求和強度。當必須頻繁擷取整個區域的強度總和并且必須在較大的區域上進行操作時(這是SURF面臨的情況)，這非常有用。

2.2.2 SURF中的尺度空間表示

為了檢測具有不同比例的興趣點，人們必須訴諸于輸入圖像的比例空間表示。通常，像SIFT一樣，将比例尺空間實作為圖像金字塔[9]，其中，使用高斯核反複對輸入圖像進行平滑處理，然後進行二次采樣以獲得更進階别的金字塔。與通常的政策不同，SURF提議通過反複增加濾鏡尺寸來反複減小圖像尺寸，進而獲得輸入圖像的比例尺空間表示，如圖2.3所示。

圖2.3輸入圖像的比例空間表示是通過與尺寸逐漸增大的濾鏡進行卷積來實作的，同時保持圖像的尺寸。經Elsevier許可，轉載自Bay 等人 [2]除SIFT中使用的高斯差(DoG)所近似的尺度高斯标準化拉普拉斯算子(LoG)外，Hessian矩陣的行列式是另一種用于檢測尺度不變興趣點的流行度量。 SURF的興趣點檢測器基于這種行列式的計算，但是具有一些近似值，是以計算速度非常快。從數學上講，圖像I中點x上的點x的黑森州矩陣可以通過以下公式計算：

其中Lxx(x，σ)是二階高斯導數與x中的圖像I的卷積，而σ是高斯的标準方差。對于Lxy(x，σ)和Lyy(x，σ)類似。

為了使用積分圖像有效地計算Hessian響應，SURF使用由幾個盒式濾波器組成的濾波器來近似二階高斯導數，如圖2.4所示。由于這些盒式濾波器對圖像的卷積僅需基于積分圖像進行幾次加法即可計算，是以計算近似的Hessian矩陣非常快速。形式上，近似的Hessian矩陣ˆH(x，σ)由下式定義：

其中Dxx(x，σ)，Dyy(x，σ)和Dxy(x，σ)分别是近似濾波器與圖像I的卷積。

圖2.4高斯二階偏導數通過箱形濾波器的逼近。從左到右是Lxx，Lyy和Lxy。近似的框式過濾器在其原始過濾器下面列出。轉載自Bay等。 [3]，經Springer Science + Business Media的友好許可

Hessian矩陣的行列式可以用作斑點點的響應，即R(x，σ)= LxxLyy-Lxy2≈DxxDyy-(0.9Dxy2)。為了保證任何濾波器大小的Frobenius範數不變，用相應的濾波器大小對R(x)進行歸一化。這對于标度空間分析很重要，因為它可以防止較大比例的濾波器響應降低。基于此測量，将通過非最大抑制跨尺度檢測興趣點，這将在下一部分中進行描述。可以看出，隻有Dxx(x，σ)，Dyy(x，σ)和Dxy(x，σ)與興趣點檢測相關，是以實際上生成了三個比例空間。一個用于Dxx(x，σ)，另外兩個用于Dyy(x，σ)和Dxy(x，σ)。

與SIFT中使用的八度音階結構類似，SURF也使此結構适應于表示音階空間。具體而言，每個八度音階包括2的縮放因子，并且包含幾個級别，每個級别對應于卷積圖像，該卷積圖像的卷積與該級别的比例有關。相鄰音階的濾波器大小在一個八度音階中的常數因子中不同，并且對于相鄰八度音階，此大小差增加了一倍。如前所述，SURF使用盒式濾波器近似二階高斯導數。 9×9是此近似值的最小框式過濾器大小(對應于σ= 1.2的高斯)，是以它充當标度空間中的最小标度。如圖2.4所示，Dxx和Dyy中包含三個部分。為了確定總的過濾器尺寸不均勻，兩個連續刻度的每個部分可以增加的最小尺寸為2。結果，整個濾波器為6。是以，在第一個八度音程中，濾波器的大小為9、15、21，…。在接下來的在比例空間中找到極端點的步驟中，可以看出，它需要兩個額外的相鄰級别來檢測某個級别中的興趣點。是以，每個八度中的第一級和最後一級僅用于輔助目的。同時，由于在标度空間中進行插值以細化興趣點的标度，是以第一個八度音階中的最小标度為(9 + 15)/ 2×1.2 / 9 = 1.6。由于一個八度音階包含比例因子2，是以，第一個八度音階的最大音階為3.2，對應于濾波器大小為24，是以，用于興趣點檢測的最後一個有用電平為21(因為(21 + 27)/ 2 = 24)。同樣，第二個八度中的濾波器大小為15、27、39、51；第三個八度中的第一個是27、51、75、99，直到輸入圖像大小不再大于過濾器大小為止。可以看出，此比例尺空間表示中的八度音階重疊以無縫覆寫所有可能的比例尺。

從标尺空間的上述結構可以明顯看出，标尺的采樣是相當粗糙的。例如，在第一個八度的前兩個級别中，音階變化為15/9 = 1.67。是以，SURF還提供了一種政策，以花費更多的計算時間來獲得具有更精細采樣比例的比例空間表示。該政策首先使用線性插值将輸入圖像加倍。然後，在第一個八度中，其第一級為15×15，而不是原始版本中的9×9。在第一個八度音階的其餘電平中，濾波器的大小為21、27、33、39。其餘内容與原始版本中的内容相似。第二個八度從27開始，并增加12倍，對于第三個八度，第四個八度等，依此類推。在比例空間的這種實作方式中，可以發現比例變化為21/15 = 1.4 ，小于1.67。同時，可以通過二次插值獲得的最佳比例為(15 + 21)/ 2×1.2 / 9×1/2 = 1.2。

2.2.3尺度不變興趣點檢測

通過在空間和比例空間的3×3×3鄰域中應用R(x，σ)的非最大抑制來對興趣點進行定位。 SURF中使用了[10]中描述的快速非最大抑制技術。基本思想是兩個局部最大值在每個次元上至少相隔r個像素，其中r是用于非最大值抑制的鄰域半徑。是以，不需要檢查所有像素。

由于空間網格和比例尺的原始采樣所定義的位置不穩定，是以有必要使用其他程式來完善位置。這是通過在與SIFT相同的空間和比例上拟合抛物面來實作插值的。有關詳細資訊，請參閱第2.1節。在此過程之後，獲得具有子像素/子比例精度的最大值，并将其作為檢測到的興趣點。

2.2.4方向配置設定和描述符構造

為了使SURF描述符對于圖像旋轉不變，首先基于來自圍繞興趣點的圓形區域的資訊來計算可重制的方向。然後，構造與計算的取向對準的正方形區域。最後，從該正方形區域提取SURF描述符。

圖2.5 Haar小波濾波器用于計算标度s在x(左)和y(右)方向上的響應。轉載自Bay等人[2]，經Elsevier許可為了計算每個興趣點的可重制方向，使用圍繞興趣點的半徑為6s的圓形鄰域，其中s是興趣點的比例。對于該區域中的每個采樣點(為了使用積分圖像四舍五入為整數)，将計算x和y方向的Haarwavelet響應，分别用dx和dy表示。為了保持标度不變，将采樣步驟設定為s。同時，Haar小波的大小也與比例有關，并設定為4s，如圖2.5所示。通過使用積分圖像，隻需要六次操作即可在任何比例下計算x / y方向上的響應。為了更加強調中心采樣點，對這些Haar小波響應應用了高斯(σ= 2s)權重函數。然後，将所有這些高斯權重響應映射到以x方向響應為橫坐标和y方向響應為縱坐标的2D空間。大小為π/ 3的滑動定向視窗用于對所有點求和，以獲得局部定向矢量(請參見圖2.6)。最後，将所有滑動視窗中最長的方向向量作為興趣點的方向。

圖2.6滑動方向視窗用于累積x和y方向上的權重響應。所有滑動視窗上最長的累積矢量被當作興趣點的方向。轉載自Bay等人 [2]，經Elsevier許可

為了提取興趣點的SURF描述符，它必須構造一個以興趣點為中心并對齊其方向的正方形區域。該正方形區域的大小設定為20s，采樣步長為s，以獲得尺度不變性。然後将正方形區域規則地劃分為4×4子區域，以保留重要的空間資訊以實作獨特性。對于該平方區域中的每個采樣點，計算其在水準和垂直方向(dx和dy)的Haar小波響應。請注意，“水準”和“垂直”是根據興趣點的方向定義的。與方向配置設定中使用的Haar小波不同，此處的濾波器大小設定為2s。為了提高效率，它們首先在未旋轉的圖像中計算出來，然後根據興趣點的方向旋轉，而不是旋轉圖像并計算這些Haar小波響應。然後将它們映射到4維向量，以編碼有關強度變化極性的資訊，即(dx，| dx |，dy，| dy |)。最後，将這些4維向量在每個子區域上求和，并以以興趣點為中心的高斯函數(σ= 3.3s)權重。将所有16個子區域中所有累積的向量連接配接在一起，以形成SURF描述符(64維)，将其标準化為機關長度，以實作對比度變化的不變性。使用高斯函數權重樣本點的響應是為了增加對定位誤差和幾何變形的魯棒性。

為了進一步提高描述符的判别能力，SURF描述符的另一種版本是将Haar小波響應映射到8維向量：((dx，| dx |)dy> 0，(dx，| dx |)dy≤0 ，(dy，| dy |)dx> 0，(dy，| dy |)dx≤0)∈R8，其中(dy，| dy |)dx> 0表示僅當dx> 0時才有效，否則設定為(0，0)。其他條款也是如此。此替代版本的尺寸為128。它更具特色，計算速度稍慢，但比對速度較慢，由于其尺寸較大，是以需要存儲兩次。

2.3本地二進制模式及其變體

另一個非常流行且廣為人知的本地功能是本地二進制模式(LBP)系列。自從1990年代首次引入基本的LBP以來，LBP方法在過去的二十年中發展了很多，從擴充，相關理論到各種新應用。

最初，LBP [11]被提出來描述紋理，其特征可能在于強度或顔色的不均勻分布，并應用于紋理分類和分割。由于其良好的性能和計算的簡便性，LBP在計算機視覺社群中迅速得到普及，并已成為在現實世界中應用(不僅限于與紋理相關的應用)中進行圖像處理的廣泛使用的運算符。

圖2.7像素的LBP計算示意圖通過将LBP算子應用于圖像，每個像素由整數标簽表示(例如，原始LBP中具有3×3鄰域配置的256個不同标簽)，該标簽對于單調照明變化具有魯棒性。這些标簽中的每一個都稱為LBP模式。在原始版本的LBP [11]中，像素的LBP模式是通過将3×3區域中每個相鄰像素與中心像素的強度進行比較來計算的，如圖2.7所示。這樣的比較将導緻一個具有8個元素的位串，是以，總共28 = 256個不同的可能标簽。在數學上，以下[12]給出了LBP的更通用定義：

其中sign(x)是符号函數，當輸入大于0時輸出1，否則輸出0。R定義半徑為R的像素x的圓形鄰域，N表示該圓上用于采樣的規則采樣點數LBP計算。在任何情況下，采樣點都不會位于離散像素中，則使用雙線性插值來擷取其強度。

根據實驗結果，Ojala等[12]提出了LBP的統一模式。基于LBP模式的定義，他們進一步定義了模式的均勻性度量，即其二進制表示形式中從0到1或從1到0的按位轉移的數量。注意，在此定義中，将模式視為循環模式。均勻性度量可以表述為：

其中bi是LBP位串的第i位。

根據這種均勻性度量，Ojala等人将均勻性度量不大于2的LBP模式定義為均勻性模式：LBPR,Nu = {LBPR,N | U(LBPR,N)≤2}。對于N位的LBP模式，有N(N − 1)+ 2個均勻模式。通常，對于其餘的非均勻模式，将它們一起視為單個标簽(模式)。是以，通過均勻的圖案，LBP的直方圖可以從2N個信箱減少到N(N -1)+ 3個信箱，進而大大減少了用于特征描述的次元。同時，發現均勻圖案在自然圖像中更穩定并占主導地位。例如，根據Ojala等人對紋理圖像進行的實驗，當使用(R = 1，N = 8)LBP鄰域時，所有圖案中将近90％是均勻圖案。在面部圖像中也觀察到類似的統計結果[1]。

為了實作旋轉不變的表示，将LBP模式循環移位到其最小整數值[14]，如下所示：

其中shift(LBPR,N，i)訓示以i位向LBPR,N右移的操作(以循環方式)。對應于該最小整數值的模式LBPR,Nri 被定義為旋轉不變LBP。在N = 8的情況下，存在36個旋轉不變LBP。我們可以看到，旋轉不變的LBP實際上将一組LBP模式映射為一個，是以可以降低判别力。根據LBPR,N和LBPR,Nri的定義，理論上，這樣的旋轉不變性僅在角度2π×i / N，i = 1…，N −1時可用。但是，實際上，它在任何角度都非常堅固。

在統一模式集合中，除了全為1s和全為0s的模式之外，它還包含N-1組模式。每組包含i(1≤i <N)1s的N個模式，所有模式僅在旋轉時有所不同。是以，如果不考慮旋轉，則每個組實際上對應一個模式。結果，總共有N + 1個不同的這種模式，稱為旋轉不變的均勻模式。它們可以通過以下方式制定：

類似于均勻圖案的情況，不屬于任何旋轉不變均勻圖案的所有其他圖案都被視為單個圖案。

已經提出了LBP的許多擴充，以提高其魯棒性和判别能力，或使其适應新的計算機視覺任務。這些變體包括對LBP的許多部分的改進，例如，将其他互補特征合并到LBP中，更改了其門檻值和強度比較的方法，擴充了多尺度分析，使其能夠處理顔色資訊，将其擴充到時空區域等。在本節中，我們将簡要介紹一些我們認為對LBP開發很重要的變體。對于LBP變體的全面回顧和介紹，我們請有興趣的讀者參考[13]。

局部Gabor二進制模式：局部Gabor二進制模式(LGBP)[17]是一個非常好的局部特征，廣泛用于面部識别。通過使用Gabor濾波和LBP運算符，它可以有效地組合本地和區域資訊。具體地，首先通過一組具有不同比例和方向的Gabor濾波器對面部圖像進行濾波，以便在比例和方向的闆範圍内獲得豐富的外觀資訊。然後，将LBP運算符應用于這些Gabor濾波圖像中的每一個(僅使用幅度)，并針對每個Gabor濾波圖像從輸入面部圖像劃分的空間子區域獲得一組直方圖。最後，所有直方圖都作為LGBP特征連接配接在一起。

其管線如圖2.8所示。但是，此方法的缺點是此類表示的維數很高，例如具有5個比例尺和8個方向，這導緻人臉表示的尺寸是使用原始LBP時的40倍。

圖2.8 LGBP計算流程圖多尺度塊局部二進制模式：人臉識别中另一個廣泛使用的LBP變體是多尺度塊局部二進制模式(MB-LBP)[8]。它擴充了原始的LBP以對較大區域中的資訊進行編碼，進而覆寫了面部圖像中的微觀和宏觀結構。是以，期望更高的判别力。

MB-LBP的基本思想是使用s×s子區域的平均強度來代替原始LBP中中心像素/相鄰像素的強度。 s的大小對應于MB-LBP的大小。通常，幾種尺度的MB-LBP一起使用，然後是Adaboost算法[5]以選擇最具區分性的特征進行人臉識别。圖2.9給出了使用3×3子區域的示例。

圖2.9 3×3塊的MB-LBP計算示意圖

MB-LBP提出的LBP的另一種修改是使用從訓練資料中獲得的統計有效的統一模式集。更具體地說，首先針對每個比例獲得MB-LBP模式的直方圖。然後，對于每個比例，将獲得與前N個箱相對應的MB-LBP模式作為N個均勻的MB-LBP模式，并接收從0到N-1的标簽。所有其餘模式共享一個标簽N。如果将其分别處理，則獲得的一組統一的MB-LBP模式将具有較大的備援度。用于面部識别的最終集合由Adaboost算法選擇。

局部三元模式：為了使LBP對強度的微小變化/噪聲更魯棒，該變化/噪聲通常發生在平坦或接近均勻的圖像區域和陰影區域，Tan和Triggs [15]将LBP中的二進制模式修改為三元模式，是以稱為本地三态模式(LTP)。在LBP中，它将門檻值的強度設定為中心像素的強度，進而為附近的每個采樣點計算一個二值位代碼(0或1)。在LTP中，它通過對兩個強度進行門檻值計算，為每個采樣點計算三值代碼(−1、0、1)，如下所示：

其中，I(x)是中心像素的強度，xi是x附近的第i個采樣點，t是預定義的偏移量，以生成兩個門檻值，通常将其設定為5。将N個采樣點的所有值連接配接在一起一起用作中心像素的LTP代碼。

直覺地，N個采樣點可以形成總共3N個可能的LTP代碼。如此大的範圍将進一步使直方圖表示非常稀疏，這可能會降低其判别能力并使其對噪聲敏感。由于這些原因，N個三個值代碼s(xi)，i = 1，…，N根據其符号分為兩組，得到兩個局部二進制模式，如圖2.10所示。這兩個部分分别用于獲得所描述區域的表示，例如直方圖。這些表示最終被串聯為單個特征向量。

圖2.10 當t = 5時像素的LTP計算圖LTP的一個缺點是，使用恒定偏移量t生成兩個門檻值會使所計算的LTP代碼在強度的标度變化下不會不變。廖等人[7]注意到此問題，并提出了比例不變LTP(SILTP)來解決此問題。 SILTP的基本思想非常簡單，即用與中心像素強度成比例的值替換LTP中的偏移量t。同時，為了避免将三進制代碼分成兩個二進制代碼，他們使用兩位來表示獲得的三個值。然後将所有采樣點的二進制代碼連接配接起來，就可以形成一個像素的SILTP表示形式。在數學上，SILTP運算符可以表示為：

其中τ是預定義的比例因子，表示可以容忍多少中央像素的強度。顯然，SILTP運算符對強度是尺度不變的。

中心對稱的本地二進制模式：盡管LBP具有高判别力和對光照變化的魯棒性，但其高次元使其不适合描述關鍵點周圍的感興趣區域，為此通常需要低次元描述符，例如128維SIFT描述符。甚至均勻LBP的直方圖仍然太長，無法在興趣區域描述符中使用。有人可能會争辯說，如果使用原始LBP，我們可以将整個興趣區域中LBP的直方圖作為描述符，其次元為256。但是，這種方法沒有在描述符中編碼任何空間資訊，這對于區分不同的興趣區域非常重要。是以，其判别能力顯着降低，使其無法用于跨不同圖像比對興趣區域。

盡管存在困難，但LBP抵抗光照變化的良好性能使其對研究感興趣區域描述的研究人員具有吸引力。受此影響，Heikkila等人[6]修改的LBP在使用8個鄰域時總共隻有16種可能的模式。在這種情況下，可以将其用于類似于SIFT的特征描述算法中，進而獲得高性能的描述符。該修改的核心思想是比較中心對稱采樣點的強度，而不是比較采樣點和中心像素的強度。是以，對于N個鄰域采樣，僅生成N / 2位，可以将其進一步編碼為2N/2維直方圖。

修改後的模式稱為中心對稱本地二進制模式(CS-LBP)。而且，由于在關注區域中可能存在大部分平坦區域，是以有必要使LBP對較小的強度變化具有魯棒性，因為這經常在帶有噪聲的平坦區域中發生。為此，CS-LBP操作員在強度比較中引入了可容忍的門檻值。綜上所述，像素x的CS-LBP運算符可以表示為：

R，N和sign(x)的含義與公式(2.10)中的含義相同。 t是一個平衡噪聲容限和CS-LBP判别能力的門檻值。 t值越大，其可抵抗強度的湍流越大。但是，要使CS-LBP有差別，就需要較小的t值。在大多數情況下，t的典型設定為3。 I(xi)和I(xi+N/2)是兩個中心對稱采樣點的強度。圖2.11描繪了N = 8時LBP和CS-LBP的差異。

圖2.11使用8個鄰域采樣時LBP算子和CS-LBP算子的比較。轉載自Heikkila等人[6]，得到Springer Science + Business Media的許可

CS-LBP的低維特性使其可以像SIFT一樣，通過在劃分的子區域中串聯直方圖來适合興趣區域描述。實際上，這就是Heikkila等人的方法[6]。确實構造了一個描述符，以結合SIFT和LBP的優勢。生成的描述符也稱為CS-LBP。除了以下兩個差別之外，用于構造CS-LBP描述符的管道與SIFT相似。

(1)它不具有特征權重步驟，該特征權重步驟根據興趣區域中的每個像素的梯度幅度和SIFT中的高斯函數為其配置設定權重。他們在[6]中報告的實驗結果支援了這一步驟的省略。

(2)在累積CS-LBP值和位置的3D直方圖時，通過使用雙線性插值将像素配置設定給其空間中的4個相鄰bin。在SIFT中，通過在空間和梯度方向上進行插值，可将一個像素添加到其8個相鄰像素中。由于CS-LBP本質上是量化的，是以在構造CS-LBP描述符時不必在此次元上進行插值。

參考文獻

Ahonen, T.,Hadid,A., Pietikainen, M.: Face descriptionwith local binary patterns: Application to face recognition. IEEE Trans. Pattern Anal. Mach. Intell. 28(12), 2037–2041 (2006) 2. Bay, H., Ess, A., Tuytelaars, T., Gool, L.V.: SURF: speeded up robust features. Comput. Vis.Image Underst. 110(3), 346–359 (2008)
Bay, H., Tuytelaars, T.,Gool, L.V.: SURF: Speeded up robust features. In: European Conference on Computer Vision, pp. 404–417 (2006)
Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 886–893 (2005)
Friedman, J., Hastie, T., Tibshirani, R.: Additive logistic regression: a statistical view of boosting.Ann. Stat. 28(2), 337–407 (2000)
Heikkila, M., Pietikainen, M., Schmid, C.: Description of interest regions with centersymmetric local binary patterns. In: 5th Indian Conference on Computer Vision, Graphics and Image Processing, pp. 58–69 (2006)
Liao, S., Zhao, G., Kellokumpu, V., Pietikainen, M., Li, S.: Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 1301–1306 (2010)
Liao, S., Zhu, X., Lei, Z., Zhang, L., Li, S.: Learning multi-scale block local binary patterns for face recognition. In: International Conference on Biometrics, pp. 828–837 (2007)
Lowe, D.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 60(2), 91–110 (2004)
Neubeck, A., Van Gool, L.: Efficient non-maximum suppression. Int. Conf. Pattern Recogn. 3, 850–855 (2006)
Ojala, T., Pietikainen, M., Harwood, D.: A comparative study of texture measures with classification based on feature distributions. Pattern Recogn. 29, 51–59 (1996)
Ojala,T., Pietikainen, M.,Maenpaa,T.: Multiresolution gray-scale and rotation invariant texture classificationwith local binary patterns. IEEE Trans. PatternAnal. Mach. Intell. 24(7), 971–987 (2002)
Pietikainen, M., Hadid, A., Zhao, G., Ahonen, T.: Computer Vision Using Local Binary Patterns.Springer (2011)
Pietikainen, M., Ojala, T., Xu, Z.: Rotation-invariant texture classification using feature distributions.Pattern Recogn. 33, 43–52 (2000)
Tan, X., Triggs, B.: Enhanced local texture feature sets for face recognition under difficult lighting conditions. IEEE Trans. Image Process. 19(6), 1635–1650 (2010)
Wang, Z., Fan, B.,Wu, F.: Local intensity order pattern for feature description. In: International Conference on Computer Vision, pp. 603–610 (2011)
Zhang, W., Shan, S., Gao, W., Chen, X., Zhang, H.: Local gabor binary pattern histogram sequence (LGBPHS): A novel non-statistical model for face representation and recognition.In: International Conference on Computer Vision, pp. 786–791 (2005)

[2015 Springer] Local Image Descriptor: Modern Approaches——2 Classical Local Descriptors

本地圖像描述符：現代方法

第2章古典本地描述符

2.1尺度不變特征變換(SIFT)

2.2加速的魯棒功能(SURF)

2.3本地二進制模式及其變體

參考文獻

繼續閱讀

從0學CV：深度學習圖像分類模型綜述

[PyTorch]利用torch.nn實作二維卷積完成車輛分類實驗任務（一）模型的建構（二）實驗結果

torch.nn.Conv2d詳解

通俗易懂的解釋Sparse Convolution過程

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

UNP學習筆記——第一章簡介

卷積神經網絡（CNN）綜述

4.卷積神經網絡-第一周卷積神經網絡

opencv-python 學習筆記（7） ------直方圖

基于卷積神經網絡的貓狗識别實驗目的環境配置識别貓狗執行個體

正面剛CNN，Transformer居然連犯錯都像人類

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

基于改進FCOS的鋼帶表面缺陷檢測

HDU 1402 A * B Problem Plus

opencv——圖像的灰階處理（線性變換/拉伸/直方圖/均衡化）