天天看點

下列哪些方法可以用來對高維資料進行降維:

感想

降維的方法有很多種,比如auto encoder,pca, LDA等,但是列舉全還是不怎麼行,看來還是要刷題。

problem

下列哪些方法可以用來對高維資料進行降維:

A. LASSO

B. 主成分分析法

C. 聚類分析

D. 小波分析法

E. 線性判别法

F. 拉普拉斯特征映射

答案: A B C D E F

analysis

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法是一種壓縮估計,它通過構造一個罰函數得到一個較為精煉的模型,使得它壓縮一些系數,同時設定一些系數為零。是以保留了子集收縮的優點,是一種處理具有複共線性資料的有偏估計。Lasso 的基本思想是在回歸系數的絕對值之和小于一個常數的限制條件下,使殘差平方和最小化,進而能夠産生某些嚴格等于 0 的回歸系數,得到可以解釋的模型。lasso通過參數縮減達到降維的目的;

主成分分析的方法即PCA,這是一個經典的資料降維方法,如果有不明白的,就自行搜尋了。

小波是定義在有限間隔而且其平均值為零的一種函數,小波具有有限的持續時間和突變的頻率和振幅,波形可以是不規則的,也可以是不對稱的,在整個時間範圍裡的幅度平均值為零。而正弦波和餘弦波具有無限的持續時間,它可從負無窮擴充到正無窮,波形是平滑的,它的振幅和頻率也是恒定的。

信号分析一般是為了獲得時間和頻率域之間的互相關系。傅立葉變換提供了有關頻率域的資訊,但時間方面的局部化資訊卻基本丢失。與傅立葉變換不同,小波變換通過平移母小波(mother wavelet)可獲得信号的時間資訊,而通過縮放小波的寬度(或者叫做尺度)可獲得信号的頻率特性。對母小波的縮放和平移操作是為了計算小波的系數,這些系數代表小波和局部信号之間的互相關系。小波分析中常用的三個基本概念:連續小波變換、離散小波變換和小波重構,如果有興趣的同學,可以自行了解。

線性判别法,即LDA,LDA的全稱是Linear Discriminant Analysis(線性判别分析),是一種supervised learning。有些資料上也稱為是Fisher’s Linear Discriminant,因為它被Ronald Fisher發明自1936年,Discriminant這次詞我個人的了解是,一個模型,不需要去通過機率的方法來訓練、預測資料,比如說各種貝葉斯方法,就需要擷取資料的先驗、後驗機率等等。LDA是在目前機器學習、資料挖掘領域經典且熱門的一個算法,據我所知,百度的商務搜尋部裡面就用了不少這方面的算法。

LDA的原理是,将帶上标簽的資料(點),通過投影的方法,投影到次元更低的空間中,使得投影後的點,會形成按類别區分,一簇一簇的情況,相同類别的點,将會在投影後的空間中更接近。

拉普拉斯特征映射:它的直覺思想是希望互相間有關系的點(在圖中相連的點)在降維後的空間中盡可能的靠近。Laplacian Eigenmaps可以反映出資料内在的流形結構。

降維方法 __ 屬性選擇:過濾法;包裝法;嵌入法; 

      |_ 映射方法 _線性映射方法:PCA、FDA等 

            |_非線性映射方法: 

                      |__核方法:KPCA、KFDA等 

                      |__二維化: 

                      |__流形學習:ISOMap、LLE、LPP等。 

            |__其他方法:神經網絡和聚類 

參考文獻