天天看點

行為識别筆記:HOG,HOF與MBH特征

在行為識别的iDT算法中,主要使用了HOG,HOF,MBH和Dense Trajectory四種特征。這裡主要對前三者進行介紹。

1. HOG特征(histogram of gray)

此處HOG特征的介紹轉載了zouxy09大神的文章  http://blog.csdn.NET/zouxy09/article/details/7929348/

方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征是一種在計算機視覺和圖像進行中用來進行物體檢測的特征描述子。它通過計算和統計圖像局部區域的梯度方向直方圖來構成特征。Hog特征結合 SVM分類器已經被廣泛應用于圖像識别中,尤其在行人檢測中獲得了極大的成功。需要提醒的是,HOG+SVM進行行人檢測的方法是法國研究人員Dalal 在2005的CVPR上提出的,而如今雖然有很多行人檢測算法不斷提出,但基本都是以HOG+SVM的思路為主。

(1)主要思想:

在一副圖像中,局部目标的表象和形狀(appearance and shape)能夠被梯度或邊緣的方向密度分布很好地描述。(本質:梯度的統計資訊,而梯度主要存在于邊緣的地方)。

(2)具體的實作方法是:

首先将圖像分成小的連通區域,我們把它叫細胞單元。然後采集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就可以構成特征描述器。

(3)提高性能:

把這些局部直方圖在圖像的更大的範圍内(我們把它叫區間或block)進行對比度歸一化(contrast-normalized),所采用的方 法是:先計算各直方圖在這個區間(block)中的密度,然後根據這個密度對區間中的各個細胞單元做歸一化。通過這個歸一化後,能對光照變化和陰影獲得更 好的效果。

(4)優點:

與其他的特征描述方法相比,HOG有很多優點。首先,由于HOG是在圖像的局部方格單元上操作,是以它對圖像幾何的和光學的形變都能保持很好的不 變性,這兩種形變隻會出現在更大的空間領域上。其次,在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下,隻要行人大體上能夠保持直立的姿 勢,可以容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測效果。是以HOG特征是特别适合于做圖像中的人體檢測的。

2、HOG特征提取算法的實作過程:

大概過程:

HOG特征提取方法就是将一個image(你要檢測的目标或者掃描視窗):

1)灰階化(将圖像看做一個x,y,z(灰階)的三維圖像);

2)采用Gamma校正法對輸入圖像進行顔色空間的标準化(歸一化);目的是調節圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的幹擾;

3)計算圖像每個像素的梯度(包括大小和方向);主要是為了捕獲輪廓資訊,同時進一步弱化光照的幹擾。

4)将圖像劃分成小cells(例如6*6像素/cell);

5)統計每個cell的梯度直方圖(不同梯度的個數),即可形成每個cell的descriptor;

6)将每幾個cell組成一個block(例如3*3個cell/block),一個block内所有cell的特征descriptor串聯起來便得到該block的HOG特征descriptor。

7)将圖像image内的所有block的HOG特征descriptor串聯起來就可以得到該image(你要檢測的目标)的HOG特征descriptor了。這個就是最終的可供分類使用的特征向量了。

行為識别筆記:HOG,HOF與MBH特征

具體每一步的詳細過程如下:

(1)标準化gamma空間和顔色空間

為了減少光照因素的影響,首先需要将整個圖像進行規範化(歸一化)。在圖像的紋理強度中,局部的表層曝光貢獻的比重較大,是以,這種壓縮處理能夠有效地降低圖像局部的陰影和光照變化。因為顔色資訊作用不大,通常先轉化為灰階圖;

Gamma壓縮公式:

行為識别筆記:HOG,HOF與MBH特征

比如可以取Gamma=1/2;

(2)計算圖像梯度

計算圖像橫坐标和縱坐标方向的梯度,并據此計算每個像素位置的梯度方向值;求導操作不僅能夠捕獲輪廓,人影和一些紋理資訊,還能進一步弱化光照的影響。

圖像中像素點(x,y)的梯度為:

行為識别筆記:HOG,HOF與MBH特征

最常用的方法是:首先用[-1,0,1]梯度算子對原圖像做卷積運算,得到x方向(水準方向,以向右為正方向)的梯度分量gradscalx,然後用[1,0,-1] T 梯度算子對原圖像做卷積運算,得到y方向(豎直方向,以向上為正方向)的梯度分量gradscaly。然後再用以上公式計算該像素點的梯度大小和方向。

(3)為每個細胞單元建構梯度方向直方圖

第三步的目的是為局部圖像區域提供一個編碼,同時能夠保持對圖像中人體對象的姿勢和外觀的弱敏感性。

我們将圖像分成若幹個“單元格cell”,例如每個cell為6*6個像素。假設我們采用9個bin的直方圖來統計這6*6個像素的梯度資訊。也 就是将cell的梯度方向360度分成9個方向塊,如圖所示:例如:如果這個像素的梯度方向是20-40度,直方圖第2個bin的計數就加一,這樣,對 cell内每個像素用梯度方向在直方圖中進行權重投影(映射到固定的角度範圍),就可以得到這個cell的梯度方向直方圖了,就是該cell對應的9維特 征向量(因為有9個bin)。

像素梯度方向用到了,那麼梯度大小呢?梯度大小就是作為投影的權值的。例如說:這個像素的梯度方向是20-40度,然後它的梯度大小是2(假設啊),那麼直方圖第2個bin的計數就不是加一了,而是加二(假設啊)。

行為識别筆記:HOG,HOF與MBH特征

細胞單元可以是矩形的(rectangular),也可以是星形的(radial)。

(4)把細胞單元組合成大的塊(block),塊内歸一化梯度直方圖

由于局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化範圍非常大。這就需要對梯度強度做歸一化。歸一化能夠進一步地對光照、陰影和邊緣進行壓縮。

作者采取的辦法是:把各個細胞單元組合成大的、空間上連通的區間(blocks)。這樣,一個block内所有cell的特征向量串聯起來便得到 該block的HOG特征。這些區間是互有重疊的,這就意味着:每一個單元格的特征會以不同的結果多次出現在最後的特征向量中。我們将歸一化之後的塊描述 符(向量)就稱之為HOG描述符。

行為識别筆記:HOG,HOF與MBH特征

區間有兩個主要的幾何形狀——矩形區間(R-HOG)和環形區間(C-HOG)。R-HOG區間大體上是一些方形的格子,它可以有三個參數來表征:每個區間中細胞單元的數目、每個細胞單元中像素點的數目、每個細胞的直方圖通道數目。

例如:行人檢測的最佳參數設定是:3×3細胞/區間、6×6像素/細胞、9個直方圖通道。則一塊的特征數為:3*3*9;

(5)收集HOG特征

最後一步就是将檢測視窗中所有重疊的塊進行HOG特征的收集,并将它們結合成最終的特征向量供分類使用。

(6)那麼一個圖像的HOG特征維數是多少呢?

順便做個總結:Dalal提出的Hog特征提取的過程:把樣本圖像分割為若幹個像素的單元(cell),把梯度方向平均劃分為9個區間 (bin),在每個單元裡面對所有像素的梯度方向在各個方向區間進行直方圖統計,得到一個9維的特征向量,每相鄰的4個單元構成一個塊(block),把 一個塊内的特征向量聯起來得到36維的特征向量,用塊對樣本圖像進行掃描,掃描步長為一個單元。最後将所有塊的特征串聯起來,就得到了人體的特征。例如, 對于64*128的圖像而言,每16*16的像素組成一個cell,每2*2個cell組成一個塊,因為每個cell有9個特征,是以每個塊内有 4*9=36個特征,以8個像素為步長,那麼,水準方向将有7個掃描視窗,垂直方向将有15個掃描視窗。也就是說,64*128的圖檔,總共有 36*7*15=3780個特征。

2.HOF特征(histogram of flow)

    HOF的介紹轉載自 http://blog.csdn.net/u013089961/article/details/44981815     HOF(Histogramsof Oriented Optical Flow)與HOG類似,是對光流方向進行權重統計,得到光流方向資訊直方圖。通常用于動作識别中。

    由于目标的尺寸會随着時間發生變化,相應的光流特征描述子的次元也會變化,同時,光流的計算對背景噪聲、尺度變化以及運動方向都較敏感,是以需要尋找一種基于光流的既能表征時域動作資訊,又對尺度和運動方向不敏感的特征。HOF則是基于此需求提出來的。     對于光流法,這篇文章有介紹。

  • 光流計算

對每幀圖像計算對應的光流場。

  • 統計直方圖

   計算光流矢量與橫軸的夾角,根據角度值将其投影到對應的直方圖bin中,并根據該光流的幅值進行權重。

行為識别筆記:HOG,HOF與MBH特征
行為識别筆記:HOG,HOF與MBH特征

   當角度落在範圍

行為識别筆記:HOG,HOF與MBH特征

時,

   其幅值

行為識别筆記:HOG,HOF與MBH特征

作用到直方圖第b個bin中

行為識别筆記:HOG,HOF與MBH特征

最後歸一化直方圖。

   補充:

  1. 以橫軸為基準計算夾角能夠使HOF特征對運動方向(向左和向右)不敏感。
  2. 通過歸一化直方圖實作HOF特征的尺度不變性。
  3. HOF直方圖通過光流幅值權重得到,是以小的背景噪聲對直方圖的影響微乎其微。
  4. 通常直方圖bin取30以上識别效果較好。
行為識别筆記:HOG,HOF與MBH特征

3. MBH特征( Motion Boundary Histograms)

    MBH特征是在2006年的一篇論文: 《 Human Detection using oriented Histograms of flow and appearance 》中介紹的幾種動作描述算子之一。

    對于HOG特征,其統計的是灰階圖像梯度的直方圖;對于HOF特征,其統計的是光流(包括方向和幅度資訊)的直方圖。而對于MBH特征,它的處理方法是将x方向和y方向上的光流圖像視作兩張灰階圖像,然後提取這些灰階圖像的梯度直方圖。即MBH特征是分别在圖像的x和y方向光流圖像上計算HOG特征。

行為識别筆記:HOG,HOF與MBH特征

    由上圖可以看出,MBH特征的計算效果就是提取了運動物體的邊界資訊(也是以被稱為Motion Boundary Histograms),在行人檢測這個應用場景能起到不錯的效果。此外,其計算也非常簡單友善,易于使用。

以上即構成了在iDT方法中使用的三種主要特征,HOG,HOF和MBH。其中HOG是在圖像場中計算的特征,屬于spatial(空間)特征,而HOF和MBH則是在光流圖像上計算得到,算是temporal(時間)的特征

繼續閱讀