天天看點

主成分分析法

主成分分析法與因子分析本質都是降維,使得滿足限制條件和盡可能保證資料的完整性而使特征次元減少。主成分指的就是降維後得到的各個次元。

他是将特征進行融合的一種算法,我們希望用更小的次元來完整表達一個個體,将資料沿方差最大方向投影(方差最大,即最分散。這也容易了解,畢竟分散的資料更容易區分開來,PCA的降維方式),資料更易于區分——這就是PCA降維的核心思想。

舉個簡單例子:學生與他的成績

主成分分析法

其中國文成績都是85,我們沿着x軸方向對資料進行投影轉變為一維資料,且按照這樣的投影方向這些資料的方差最大最分散,僅僅依據一維資料就能差別每個學生(假設每個學生數學成績不一樣)。

降維的過程和結果是依賴于數學特征向量和特征值的,它的降維是向方差最大方法前進的,所有資料都要進行投影,選擇一個投影方向使所有資料投影後方差最大,如果一個方向不能很好反映資料的資訊,那就選擇方差次優解的投影方向,繼續這個過程,直到達到新的次元能否反映原始資料的某個門檻值資訊量。在計算前需要對資料進行預處理,即标準化和中心化,如果沒有對資料做中心化,那算出來的第一主成分的方向可能就不是一個可以“描述”(或者說“概括”)資料的方向了,如下圖:

主成分分析法