本節書摘來自異步社群《人臉識别原理及算法——動态人臉識别系統研究》一書中的1章1.3節模式識别理論,作者 沈理 , 劉翼光 , 熊志勇,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
1.3 模式識别理論
人臉識别原理及算法——動态人臉識别系統研究
模式識别是将計算機表示出來的圖像和已知的類别進行比對的過程。識别過程将計算機視覺中表現的客觀物體用一定的方法從特征空間映射到模型空間。
模式識别在人類的活動中普遍存在。模式的一種經典定義為[17]:混沌世界中與無序相對的一種狀态就是模式。模式識别過程就是試圖去确定樣本的類别屬性,即把某一樣本歸屬于确定類型中的一類[18, 19]。在模式識别過程中,最重要的是尋找樣本的特征空間,通過樣本特征空間來确定樣本的歸類,是以可以認為模式識别過程是由模式空間經過特征空間到類型空間的映射過程。在模式識别過程中,模式維數是無限多的,這意味着模式識别中實體世界觀察的資料集合具有多樣性。模式識别中任一模式空間的屬性表示為特征空間的必要條件是客觀世界裡的物體和時間在實體上是可測量的,而這些可測量的資料都能夠用函數的形式描述;并且這些資料可以歸并到一組模式定義上。在從模式空間到特征空間的變化中,經常由于模式空間的維數太大,将模式空間的維數進行壓縮和綜合分析得到低維的特征空間,這一過程稱為特征提取或特征選擇。模式識别過程的特征空間到類型空間還存在一定的映射關系,這個映射關系一般采用既有的經驗和知識對特征空間參數進行分類,這一分類過程叫作判斷決策,而判斷決策中使用的知識和經驗叫作判斷規則。在适當的判斷規則下,特征空間裡的樣本區分成不同的類型,這樣将特征空間區分成不同的類型空間。類型空間中不同類型的分界面稱為決策面。類型空間的維數定義為類型數目,而不是模式空間的維數。模式識别過程存在一個降維的過程,是以一般說來特征空間的維數要大于類型空間的維數,而模式空間的維數要大于特征空間的維數。整個模式識别過程是從可感覺的世界通過模式空間、特征空間,經曆模式采集、特征提取和分類判決過程,最後得到分類的結果,如圖1-2所示。

下面将模式識别整體過程分為預處理、特征提取、分類過程等幾個步驟分别進行描述[20]。
1.3.1 預處理
預處理是模式識别過程的第一步。預處理是将模式識别的樣本從一定的環境中抽取出不受更多幹擾因素影響的待識别樣本。一般說來,預處理的功能包括消除或者減少模式采集中的噪聲及其他幹擾,以便提高信噪比、清除或減少資料圖像模糊(特别是運動模糊)及幾何失真,提高清晰度、改變模式的結構。例如将非線性的模式轉變成線性的模式、圖像的濾波、變換、編碼、标準化等都可以歸類于預處理工作。在一些采樣過程中,采集到的是一些模拟量,這一過程在工業控制中經常出現,而計算機卻隻能處理數字量,這就要求進行模/數轉換。對于模/數轉換一般要考慮兩個量:采樣時間間隔和量化級。采樣和量化對于模/數轉換的效果影響特别大。特别應該指出的是,沒有一個通用标準來規定圖像模式量化過程和預處理的效果,這種效果是根據客觀觀察決定的。總之,預處理過程基本包括了模式識别前的所有工作。
1.3.2 特征提取
在客觀物體的樣本采集過程中,為了保證模式的真實性,總是盡量多地采集各項資料,這使得樣本在模式空間裡的維數很大。維數大的模式空間帶來的處理時間和費用都很大,而且過多的維數影響了分類的可能。另外在模式區分時,并不是每一個特征對事物的描述都有相同意義,特别指出:對于不同的分類要求,不同的特征有不同的意義。特征提取是将對模式識别有明顯作用的特征提取出來,通過這一過程可以壓縮模式的維數,使之便于處理,減少損失。
特征提取後得到的特征空間是為了分類使用的,對于相同的物體在不同的分類規則下,所提取的特征必須滿足在某種準則下分類錯誤最小。在一般情況下,可以選擇适當的正交變換,考慮特征之間的統計關系,提取出最有效的特征;在特征提取的同時删除貢獻微弱的特征,以達到減少分類錯誤的目的。
1.3.3 分類
分類将特征空間劃分為類型空間,同時分類還将未知類别屬性的樣本确定為類型空間裡的某一個類型。在給定的條件下,分類還可以否定樣本屬于某種類型。在實際的模式識别過程中,在預先給定的條件下,被考慮的類型屬性通常具有相似性,是以在分類中出現錯誤是不可避免的。分類過程隻能以某種錯誤率來完成。對于好的模式識别算法,在特征空間上必然有好的分類算法來減少分類的錯誤率。而且特征空間充分地反映模式空間的程度也決定了分類的錯誤率。是以錯誤率的降低是模式識别研究的中心問題。
上面介紹了模式識别的基本原理。模式識别的識别過程是依照上面的過程進行的。另外模式識别系統必然需要一個學習的過程,通過樣本特征的變化來對分類功能自動調節,這一功能可以認為是分類器的訓練。随着樣本的變化,系統自動調整分類特性,這一過程在模式識别系統中屬于前期工作,稱為學習過程。圖1-3為模式識别系統框圖。
模式采集完成模式的采集。根據處理對象的不同可以選用各種傳感器、測量裝置或圖像錄取輸入裝置。在采集過程中或采集之後,經常需要進行模/數轉換、濾波、消除模糊、減小噪聲、糾正幾何失真等預處理操作。特征提取實作由模式空間向特征空間的轉變,有效地壓縮模式維數。在一般情況下,特征提取的組合是在一定分類準則下找出最佳的或者接近最佳的變換器,或者是為了實作某種特征的選擇算法。
分類器必須實作對未知類别屬性樣本的分類判決,是以設計分類器首先必須确定對分類錯誤率的要求,選用适當的判決規則。為了能使分類器有效地進行分類判決,還必須首先對分類器進行訓練,這就是分類器的學習過程。分類器的學習/訓練過程是模式識别中的重要概念。模式識别具有自動識别功能是非常重要和關鍵的。經過機器學習過程後,分類器可以得到一個分類器樣本原型,這一過程必須經過多次重複,不斷糾正錯誤,最後才能使分類的錯誤率達到要求。經過特征提取和訓練/學習過程的樣本通常叫作訓練樣本,這些樣本的類别屬性預先并不都是知道的。分類判決常常是樣本多特征的函數,學習過程就是要确定函數的所有因子,甚至直接确定判決規則。開始時輸入一些訓練樣本,分類錯誤率一定很大,是以就要修正判決規則或者權因子。不斷輸入修正的一個正回報過程直到分類錯誤率低于某個定值為止,這個過程稱為完整的學習過程。
按分類特性劃分,模式識别的常用方法主要包括統計模式識别和句法模式識别。統計模式識别是以實驗樣本在特征空間中的機率密度函數為基礎的。而句法模式識别是以圖形的結構特征為基礎,采用形式語言理論的技術,适合于複雜景物圖像分析和了解。多數識别采用統計方法。
本文僅用于學習和交流目的,不代表異步社群觀點。非商業轉載請注明作譯者、出處,并保留本文的原始連結。