天天看點

了解機器學習中如何降維處理

《百面機器學習》學習筆記

任務簡介:學習《百面機器學習》4.1-4.4 

詳細說明:

不管是機器學習還是深度學習,資料都是以向量的形式進行表示的。而對高維向量進行處理時會極大的消耗系統資源,甚至産生次元災難。因而降維不僅是在面試中,同時在實際應用中都是非常重要的知識點。本章主要介紹了PCA和LDA這兩種降維的算法,其中PCA又從兩個角度進行推導,并在最後将PCA和LDA進行對比,兩種相似度較高的算法在一起對比是比較好的一種學習方法。在學習本章的時候我們需要特别注意高維向量如何在低維基向量中進行表示,這一點特别重要。同時我們也希望同學們能夠在學習完本章後能夠了解這兩種算法的推導過程,最好是能自己從頭推導出來。

 在下面的百度雲裡,為大家準備了PCA的實戰代碼:

連結:https://pan.baidu.com/s/1PdW4qzHRe-S6MmkWII7Mbw 密碼:s3s1

打卡要求:

手動在紙上或其他工具進行推導并對每個問題拍照送出,PCA從兩個角度考慮如何進行數學推導?

LDA的數學原理是什麼?

簡述PCA和LDA的異同?

手動在紙上或其他工具進行推導并對每個問題拍照送出,PCA從兩個角度考慮如何進行數學推導?

LDA的數學原理是什麼?

簡述PCA和LDA的異同?

相同點:

求解過程類似都可以總結為:

1.計算樣本資料均值,對資料進行中心化處理

2.計算矩陣,PDA計算樣本協方差矩陣,LDA計算類間散度矩陣等

3.對步驟2得到的矩陣,進行特征值分解,将特征值從大到小排列

4.取特征值前d大的特征向量w1,w2,....wd,通過映射将n維樣本映射到d維。

不同點:

原理有所不同,PCA選擇投影後資料方差最大的方向,由于他是無監督的,是以PCA假設方差越大則資訊量越大,用主成分來表示原始資料可以去除備援的次元,進而達到降維。

LDA選擇的是投影後類内方差小,類間方差大的方向,使用了類别标簽資訊,為了找到資料中具有判别性次元,使得原始資料在這些方向上投影後,不同類别盡量分開。

PCA無監督,而LDA是監督算法。無監督任務使用PCA,有監督的任務使用LDA.

繼續閱讀