天天看點

資料分析的其中降維方法

在分析大資料樣本集過程中,通常需要對資料集的特征向量進行降維。

降維的目的:去除噪聲、對結果影響不大的特征向量,最大限度保持對結果有明顯影響的特征向量。保持最小特征子集。

常用方法:

1、缺失率比值。将缺失率高于某個值的列除掉,相當于對資料樣本進行清洗。

2、低方差濾波。方差變化較少,表示包含的資訊較少,可以去除該列,減少計算量。

3、高相關濾波。相關性高的列之間,資訊備援過大,可以出去備援列,保持一列即可滿足機器學習要求。減少計算量。

4、主成分分析。将n維資料變換到主成分資料集中,計算方差最大的特征向量作為第一個主成分,然後選擇與前一個主成分正交且方差最大的特征向量作為第二個主成分,以此類推。這樣,前m個特征向量形成的主成分保持了最大的資訊量。需要注意,正交時,需要進行歸一化處理。

5、反向特征消除。先用n個特征向量進行訓練,然後降維n-1個特征向量進行訓練,得到n個分類器。找到這n個分類器中錯分率最小的所使用的n-1個特征向量作為特征集。不斷疊代這一結果,直到錯分率超過我們的容忍度。

6、前向特征消除。與反向特征消除類似。先選擇1個特征向量。然後選擇2個,保留使分類正确率最高的2個特征向量為特征子集。不斷疊代,直到分類正确率達到要求的比例。

7、随機森林。對資料集産生很多,每棵樹訓練一個一部分屬性,如果某個屬性經常成為最佳分裂屬性,那麼這個屬性就是需要保留的特征向量,資訊量大,對分類結果影響很大。

補充說明:

反向特征向消除、前向特征消除,都是比較耗時的。實際過程中,不到萬不得已,不建議采用。

擴充閱讀:随機森林分類器

随機森林顧名思義,是用随機的方式建立一個森林,森林裡面有很多的決策樹組成,随機森林的每一棵決策樹之間是沒有關聯的。

在得到森林之後,當有一個新的輸 入樣本進入的時候,就讓森林中的每一棵決策樹分别進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然後看看哪一類被選擇最多,就預測這個樣本 為那一類。

繼續閱讀