天天看點

主成分分析原理

轉自維基百科,部分截取

在多元統計分析中,主成分分析(英語:Principal components analysis,PCA)是一種分析、簡化資料集的技術。主成分分析經常用于減少資料集的維數,同時保持資料集中的對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是,這也不是一定的,要視具體應用而定。由于主成分分析依賴所給資料,是以資料的準确性對分析結果影響很大。

主成分分析由卡爾·皮爾遜于1901年發明[1],用于分析資料及建立數理模型。其方法主要是通過對協方差矩陣進行特征分解[2],以得出資料的主成分(即特征向量)與它們的權值(即特征值[3])。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以了解為對原資料中的方差做出解釋:哪一個方向上的資料值對方差的影響最大?換而言之,PCA提供了一種降低資料次元的有效辦法;如果分析者在原資料中除掉最小的特征值所對應的成分,那麼所得的低次元資料必定是最優化的(也即,這樣降低次元必定是失去訊息最少的方法)。主成分分析在分析複雜資料時尤為有用,比如人臉識别。

PCA是最簡單的以特征量分析多元統計分布的方法。通常情況下,這種運算可以被看作是揭露資料的内部結構,進而更好的解釋資料的變量的方法。如果一個多中繼資料集能夠在一個高維資料空間坐标系中被顯現出來,那麼PCA就能夠提供一幅比較低次元的圖像,這幅圖像即為在訊息最多的點上原對象的一個‘投影’。這樣就可以利用少量的主成分使得資料的次元降低了。

PCA跟因子分析密切相關,并且已經有很多混合這兩種分析的統計包。而真實要素分析則是假定底層結構,求得微小差異矩陣的特征向量。

繼續閱讀