天天看點

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用

次元的詛咒是一種現象,即資料集次元的增加導緻産生該資料集的代表性樣本所需的指數級更多的資料。 為了對抗次元的詛咒,已經開發了許多線性和非線性降維技術。這些技術旨在通過特征選擇或特征提取來減少資料集中次元(變量)的數量, 而不會顯着丢失資訊。特征提取是将原始資料集轉換為維數較少的資料集的過程。兩個衆所周知的,密切相關的特征提取技術是主成分分析(PCA)和自組織映射(SOM)。人們可以把降維作為一個渡槽系統來了解資料的河流。

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用

主成分分析(PCA)

主成分分析(PCA)是一種統計算法,用于将一組可能相關的變量轉換為一組稱為主成分的變量的不相關線性重組。簡而言之,主要組成部分,ÿ,是我們資料集中變量的線性組合, X,那裡的權重, ËĴŤ是從我們的資料集的協方差或相關矩陣 的特征向量導出的。

第一個主要成分是使資料點距離的平方和最小的直線。它是單行資料集的最小二乘逼近。是以,第一個主要組成部分解釋了資料集的最高變異量。然後從資料集中提取殘差并計算下一個主成分。如此,每個連續的部件解釋較少的方差,進而從中減少了變量的個數 X, 米,主要元件的數量, ķ。在使用PCA時存在一些挑戰。進而從中減少了變量的個數 X, 米,主要元件的數量, ķ。在使用PCA時存在一些挑戰。首先,該算法對資料集中變量的大小敏感,是以建議采用平均中心,而采用相關矩陣X因為它是正常化的。 PCA的另一個挑戰是它本質上是線性的。PCA的非線性适應包括非線性PCA和核心PCA。

自組織映射(SOM)

自組織映射(SOMs)最初是由Kohonen在20世紀90年代中期發明的,有時也被稱為Kohonen Networks。SOM是一種多元縮放技術,它建構了一些底層資料集的機率密度函數的近似值,X,這也保留了該資料集的拓撲結構。

這是通過映射輸入向量來完成的, X一世在資料集中, X,權重矢量, w ^Ĵ,特征地圖中的(神經元) w ^。保留拓撲結構簡單地意味着如果兩個輸入向量靠近在一起X,那些輸入向量映射到的神經元 w ^也将緊密結合在一起。這是SOM的特點。

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用

如果SOM中的神經元數量少于資料集中的模式數量,那麼我們将降低資料集的維數...而不是輸入或權向量的維數。是以,由SOM執行的次元降低的類型與由PCA執行的降維類型不同,并且SOM實際上更類似于諸如K均值聚類的 聚類算法。

然而,SOM和聚類的差別在于資料集的聚類将(一般來說)保留資料集的機率密度函數,而不是資料集的拓撲結構。這使SOM特别有用于可視化。通過定義一個将給定權向量轉化為顔色的次函數,我們能夠将底層資料集的拓撲結構,相似性和機率密度函數可視化為一個較低的維數(通常是兩維因為網格)。

PCA的應用

“Weka是資料挖掘任務的機器學習算法集合,它可以直接應用于資料集,也可以從您自己的Java代碼中調用.Weka包含資料預處理,分類,回歸,聚類,關聯規則,可視化,也非常适合開發新的機器學習方案。“ [ 來源 ]

WEKA中的一個特性是選擇屬性和降維的工具。其中一個支援的算法是主成分分析。本示例将PCA應用于包含12個相關技術名額的.CSV檔案。備援是導緻模型(特别是機器學習模型)過度拟合的資料品質之一。

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用

相關矩陣技術名額

如果我們把它加載到WEKA中,我們将看到資料集的一些基本的描述性統計,包括每個變量(技術名額)的直方圖,以及它們的最小值,最大值,平均樣本統計量和标準差樣本統計量。

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用

在選擇屬性頁籤中,選擇主要元件屬性評估器,WEKA将自動選擇排序器搜尋方法。

拓端tecdat|次元規約(降維)算法在WEKA代寫中應用