天天看點

目前電子鼻系統資料進行中常用的模式識别技術

目前電子鼻系統資料進行中常用的模式識别技術

目前電子鼻資料進行中所采用的模式識别算法主要包括k近鄰法(k-Nearest Neighbor ,k-NN)、聚類分析(Cluster Analysis ,CA)、判别分析(Discriminant Analysis, DA)、主成分分析(Principal Component Analysis, PCA)、反向傳播人工神經網絡(Back-Propagation Artificial Neural Networks, BP-ANN)、機率神經網絡(Probabilistic Neural Network, PNN)、學習向量量化(Learning Vector Quantization, LVQ)、自組織映射(Self-Organizing Map, SOM)等。其中PCA和BP-ANN應用最為廣泛。上述模式識别算法按輸入輸出之間的關系可分為線性算法(k-NN、CA、DA、PCA)和非線性算法(BP-ANN、PNN、LVQ、SOM)兩類。線性算法隻能實作輸入到輸出的線性映射,它們都是基于統計理論而發展起來的。非線性算法,顧名思義,可實作輸入到輸出的非線性映射,與神經網絡理論有關,由于這類算法能實作更複雜的映射關系,是以通常其識别效果要優于線性算法。模式識别算法還可以按其它方式進行分類,如按是否建立模型可分為基于模型的算法(如PCA)和非基于模型的算法(如SOM、BP-ANN等),按訓練過程中是否有教師樣本可分為帶監督學習的算法(如BP-ANN、LVQ等)和無監督學習的算法(如k-NN、SOM等)。

一、基于統計理論的模式識别算法

這類算法包括k-NN、CA、DA和PCA等,它們的共同特點是分類主要利用樣本間的相似性(一般為距離)、假設輸入信号與輸出類别之間存線上性關系以及隻能構造線性的分類邊界等。

1.1 k-NN

近鄰法(NN)是一種最簡單的非參數模式識别方法,它主要依據樣本間的多元空間距離來實作分類。令目标集Dn={x1,x2,…,xn},其中每一個樣本xi所屬的類别均已知(已标記)。對于測試樣本x,在集合Dn中距離最近的樣本标記為x′。那麼NN就是把測試樣本x歸到x′所屬類别。k-NN是近鄰規則的一個推廣,它将測試樣本分類為與它最接近的k個(為避免二義性,通常取k為奇數)近鄰中出現最多的那個類别。

顯然,當k=1時,k-NN就是前述的NN。常用的距離計算函數有歐氏(Euclidean)距離:

目前電子鼻系統資料進行中常用的模式識别技術

和馬氏(Mahalanobis)距離:

目前電子鼻系統資料進行中常用的模式識别技術

其中

目前電子鼻系統資料進行中常用的模式識别技術

式中xi和xj是矢量集{x1,x2,…,xm}中的2個矢量。

由上述計算公式可知,樣本間的距離計算是對其機關敏感的,比如将某一維的度量機關由米改為毫米,其計算結果可能會産生很大的變化。克服這一問題的常用方法是對資料進行歸一化預處理。

1.2 CA

CA是基于整個資料集内部存在若幹"分組"或"聚類"為出發點而産生的一種資料描述方法。CA是一種典型的無監督學習算法。由于每個子集中的點具有高度的内在相似性,憑借這些内在的相似性可以實作對樣本空間的"自然分組"。相似性的度量是聚類算法成功的關鍵。最簡單也是應用最多的相似性度量還是前面提到的歐氏距離和馬氏距離。實際在電子鼻模式識别中采用的聚類分析僅為一種特殊的名為層次聚類(hierarchical clustering)的聚類方法,其思想是一個大類包含很多子類,子類又包括很多更小的子類,就如生物學中的門-綱-類-子類-目-科的分類方法一樣,分類的結果以樹圖(dendrogram)的方式表示。雖然都是計算樣本之間的距離,但聚類分析與近鄰法不同,它需要在樣本距離之間設定一個門檻值,小于該門檻值就可歸為一類。門檻值的設定是非常關鍵同時又是很困難的,太大所有樣本會被歸為一類,太小每個樣本又會單成一類。目前很少用聚類分析單獨分析資料,在電子鼻應用中,它通常扮演一個輔助的角色。

1.3 DA

判别分析又稱為判别函數分析(discriminant function analysis,DFA),是指由x的各個分量的線性組合而成的函數:

目前電子鼻系統資料進行中常用的模式識别技術

式中w為權向量,w0為門檻值。對于兩類問題,如果g(x)>0,則判定為w1類;如果g(x)<0,則判定為w2類;如果g(x)=0,則x可以歸到任意一類,或者把這種情況按拒識處理。方程g(x)=0定義了一個判别面,在多元空間中這個判别面稱為超平面(hyper plane)。對于兩類識别問題,該超平面将多元空間劃分為兩個區域,判别分析是以而得名。為提高識别率,可以在上式中引入二次或更高次項,此時g(x)轉變成為廣義判别函數,超平面也随之變換為超曲面。一般電子鼻傳感器陣列中傳感器的數量較多,這給求解上式帶來了"維數災難"問題。是以在判别分析中最常用的是一次線性判别函數,最多不超過二次判别。理論上求解權向量和門檻值的方法很多,當在實際中常用的隻有兩種:基本梯度下降算法和最小均方算法(least-mean-squared,LMS)。LMS算法能大大縮短計算時間和減小存儲空間。

1.4 PCA

PCA又稱為主成分分析,是在電子鼻領域應用最多的兩種算法之一。設有n個樣本,m個變量,則原始測量資料的矩陣向量為

目前電子鼻系統資料進行中常用的模式識别技術

将原始資料标準化,得到标準化的測量值:

目前電子鼻系統資料進行中常用的模式識别技術

式中

jx為變量j測量值的樣本平均值;sj為變量j測量值的樣本标準差。将标準化的測量值組成對應的新矩陣向量,并求其協方差矩陣,然後求協方差矩陣的特征值,按大小順序排列得λ1≥λ2≥…≥λm,對應特征向量為β1,β2,…,βm。所求特征向量按順序分别稱為第1,2,…,m主成分。各主成分的貢獻率按下式進行計算:

取前p個(p≤m)主成分,使得它們的累計貢獻率大于80%,計算标準化後的測量值在前p個主成分方向上的得分Z:

目前電子鼻系統資料進行中常用的模式識别技術

主元分析的實質就是尋找在最小均方意義下最能夠代表原始資料的投影方法,如下圖所示。主元分析方法易于了解,便于實作,通常取原始資料在前2個或前3個主成分上的投影進行繪圖,為保證繪圖的可靠性,要求前2個或前3個主成分的累計貢獻率應在80%以上。

目前電子鼻系統資料進行中常用的模式識别技術

二、基于人工神經網絡的模式識别算法

這類算法包括BP-ANN、PNN、LVQ和SOM等。人工神經網絡算法是通過對生物神經元的數學模拟而發展起來的。從本質上看,人腦無論多麼複雜,都可以看作是由大量神經元組成的巨大神經網絡。人工神經網絡通過從神經元的基本功能出發,逐漸從簡單到複雜組成各種網絡,實作了輸入、輸出之間的非線性映射。就分類而言,人工神經網絡可以産生複雜的類邊界,這使得它具有比統計方法更強的分類能力。

2.1 BP-ANN

反向傳播人工神經網絡是在電子鼻領域應用最多另一種算法。該算法功能強大,易于了解,訓練簡單。BP-ANN在概念和算法上的簡便性,以及它在衆多的實際問題中的成功應用,使得它目前在電子鼻模式識别中占據了主流地位。

BP-ANN的結構如下圖所示,其學習過程由信号的正向傳播與誤差的方向傳播2個過程組成。正向傳播時,樣本從輸入層傳入,經各隐層逐層處理後(通常隻有1個隐層,以避免提高計算複雜性),傳向輸出層。各層神經元之間依靠不同的權值相連接配接,某神經元的輸入為上層所有神經元輸出的權重和,通過一個激勵函數的變換産生該神經元的輸出。激勵函數有階躍函數、線性函數,應用最多的還是Sigmoid函數。若輸出層的實際輸出與期望的輸出(教師信号)不符,則轉入誤差的反向傳播。誤差反傳是将輸出誤差通過隐層向輸入層逐層反傳,并将誤差分攤給各層神經元,進而獲得各神經元的誤差信号,然後按梯度下降的方向對各神經元的權值進行調整。這種信号正向傳播與誤差反向傳播的各層權值調整過程周而複始地進行,直到網絡輸出誤差減小到可接受的程度,或進行到預先設計的學習次數為止。訓練好的網絡即可用于預測計算,記錄一個BP-ANN需要存儲其網絡結構、權值及激勵函數等。

目前電子鼻系統資料進行中常用的模式識别技術

與前述基于統計理論的算法相比,BP-ANN最大的優點是它可以實作輸入和輸出資料之間的非線性映射。在電子鼻信号進行中,輸入和輸出之間往往是非線性的,這就使得BP-ANN應用廣泛,且效果良好。BP-ANN在應用中的難點包括網絡結構的設計、隐層神經元個數的選擇、激勵函數的選取、權值的初始化、網絡誤差的設定等。上述參數選擇還沒有統一的标準,通常根據研究人員的經驗進行選擇。有一些改進算法,如增加動量項、自适應調節學習率等可以在一定程度上改善BP-ANN算法。

2.2 PNN

PNN是一種非參數的機率密度估計方法。PNN網絡通過下面的方式進行訓練:首先将訓練樣本歸一化。第一個歸一化後的樣本x1被置于輸入層單元上,同時将連接配接輸入單元和模式層單元的連接配接初始化為w1=x1,然後從模式層的第一單元到類别層中代表x1所屬類别的那個單元之間建立一個連接配接。同樣的過程對剩下的各個模式單元都重複進行,即wk=xk。這樣操作後,可以得到一個輸入層與模式層之間完全連通,而模式層到類别層之間稀疏連接配接的網絡。

訓練好的網絡就可以用于分類:首先将歸一化的測試樣本x提供給輸入節點,每一個模式層單元都計算一個淨值,然後通過激勵函數(通常為高斯函數)映射到類别層單元,每一個類别單元把與它相連的模式層單元的輸出結果相加,得到每一類的條件機率密度,根據機率密度的大小進行分類。PNN最大的優點是學習速度很快,因為每個樣本僅需提供一遍,但對存儲空間要求比較高。PNN算法的另一個優點是新的訓練樣本很容易加入到訓練好的分類器中,這一特點對于線上的應用特别有意義。

2.3 LVQ

LVQ屬于一種混合型網絡,它由競争層和線性層兩部分組成,采用監督學習方式對競争層進行訓練。學習向量量化的分類結果取決于輸入向量之間的距離。LVQ網絡與競争網絡十分相似,差別在于LVQ網絡的競争層不是直接輸出分類資訊,而是給出一個子類資訊,一個類可以有幾個不同的子類構成。LVQ網絡利用線性層實作子類到類的組合,這樣就克服了競争網絡隻能産生凸的判定邊界的局限,可以産生複雜的類邊界。LVQ網絡目前應用不多,但其分類能力十分強大。Shaffer等曾對比了DA、PCA、NN、BP-ANN、PNN、LVQ等多種算法在傳感器陣列信号進行中的應用,結果表明LVQ具有最佳的分類效果。LVQ算法訓練的時間比較長,這在一定程度上限制了它的應用。

2.4 SOM

SOM是一種基于競争學習的特殊神經網絡。網絡的輸出神經元之間互相競争以求被激活,結果在每一時刻隻有一個輸出神經元能獲得輸出值,是以該算法又被稱為"勝者為王"(winner-takes-all)算法。在自組織映射中,神經元被放置在網格節點上,這個網格通常是一維或二維的。在競争學習過程中,神經元依據不同的輸入進行選擇性地調整,進而實作由輸入模式到輸出模式之間的拓撲有序映射(topologically ordered map)。該算法的目标就是用低維目标空間的點去表示高維原始空間的點,使得這種表示盡可能地保留原始的距離或相關性。SOM算法的實作過程可以簡述為:初始化-取樣-相似性比對-更新-重複上述過程直到無明顯變化。自組織映射對存儲容量要求不高。而且,如果從原始空間到目标空間存在非線性映射結構,該算法表現得非常出色。從對資料進行降維處理來看,SOM算法正好和前面提到的主元分析法形成互補,即線性輸入-輸出适合用PCA法進行降維,而非線性輸入-輸出則應采用SOM網絡降維。