天天看點

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

K-L變換的理論知識

K-L變換是除了PCA外的另一種常用的特征提取方法,它有很多種形式,最基本的形式跟PCA類似,它跟PCA的不同在于,PCA是一種無監督的特征變換,而K-L變換能夠考慮到不同的分類資訊,實作有監督的特征提取。

根據随機過程中的KL展開理論,将随機過程描述為無數個正交函數的線性組合,而在模式識别問題中,通常可以将一個樣本看成是随機向量的某一次實作結果,是以假設有一d維随機向量x,可以寫成一組正交基

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

的線性組合,且它們的模為1:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

對上式變形得到:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

                           (初見K-L變換,通常需要先對樣本進行零均值化或平移)

假設有用資訊就集中在其中的q維上,那麼現在我們來嘗試用着q維去近似x:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

近似前後樣本向量的差向量為:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

考查上述差向量的均方誤差(MSE)為:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

其中,變換矩陣

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

是原樣本向量x的二階矩陣(注意,這裡還可以是其他矩陣,如協方差矩陣),可以與PCA中比較一下,形式大緻相同,但在PCA中使用的變換矩陣是協方差矩陣;

我們的目的是最小化上述MSE,同PCA中的求解方法,得到下面拉格朗日目标函數:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

對sigma求導并令其等于零,有:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

看到熟悉的面孔了,哈哈,

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

就是

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

的特征值,是以上面要求的均方誤差就解開了神秘的面紗:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

分析到這裡,應該不難看出,簡直跟PCA就是一對雙胞胎啊,太像了有木有,其實當K-L變換的變換矩陣

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

為協方差矩陣時,K-L變換就變成了PCA。

回到使用q維逼近樣本向量x的問題上來,通過上面的分析我們知道了,如果想用q維來表示樣本向量并使MSE最小化,合理的做法就是:把變換矩陣

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

的特征值從大到小排列,然後選擇前q個特征值對應的特征向量就行,此時截斷誤差能夠保證最小,其中

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

中的前q個正交向量就組成了新的特征空間,而原樣本向量x在這個新特征空間上的展開系數yi就組成了新的特征向量,這種變換就叫做K-L變換,對于它的其他不同的形式,主要是基于變換矩陣

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

的具體形式。

可以發現,得到這q個新特征與PCA中的d個主成分是類似的,當對原特征x進行中心化時,K-L變換等價于PCA;

K-L變換的幾個重要性質

1.變換後得到的新特征滿足零均值:

證明:

設有如下K-L變換:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

,其中矩陣A是變換核矩陣;

對X的變換結果Y球其均值:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

2.K-L變換是一種正交變換;

3.K-L變換的新特征彼此之間不相關;

4.K-L變換的新特征向量的二階矩陣是對角陣,且對角線元素就是原特征的二階矩陣的特征值;

證明:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

5.K-L變換是信号的最佳壓縮表示,用q維新特征表示原樣本特征帶來的誤差在所有q維正交坐标變換中最小;

6.用K-L坐标系來表示原資料,意味着熵最小,即樣本的方差資訊最大程度的集中在較少的維數上;

K-L變換與PCA的聯系與差別

聯系:

都屬于正交變換;

當對原特征x進行中心化時(即變換矩陣為協方差矩陣),K-L變換等價于PCA;

PCA是離散K-L變換;

都可以實作降維變換;

差別:

K-L變換可以實作有監督的特征提取,但是PCA的變換是一種無監督的;

在含義上,K-L變換較廣義,PCA較狹義;

K-L變換可以處理連續和離散情況,而PCA隻針對離散情況;

K-L變換的變換矩陣可以是很多種,如二階矩陣、協方差矩陣(總體散布矩陣)等,或者說自相關矩陣,而PCA的變換矩陣就是協方差矩陣;

但是,在一些地方就認為兩者是沒什麼差別的,因為實際應用中不管是協方差矩陣,還是自相關矩陣,其實隻是差了個對樣本進行均值的平移,但是在PCA中這種平移并不會影響主成分的方向,是以PCA中也通常會先對樣本平移,這樣看來自相關矩陣就變成了協方差矩陣。

協方差矩陣:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

自相關矩陣:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

其中,

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

是共轭轉置矩陣,當為實矩陣時,等價于轉置矩陣;

協方差矩陣和自相關矩陣的關系:

模式識别(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

參考:Wiki

繼續閱讀