天天看點

特征選擇算法(機器學習)

1)特征選擇理論

一份資料有很多屬性,但有些屬性可能很關鍵,另一些沒有用。從給定特征集中選擇出相關特征子集的過程稱為特征選擇。特征選擇是一個重要的資料預處理過程。一般在正式的資料處理之前進行。

特征選擇是一個重要的資料預處理過程,他不僅可以降低資料維數,以節省時間,簡化分析,規避“次元災難”,更可以去除無關特征,抓住主要沖突,使分析結果更加準确。同時,采用特征選擇算法還便于了解和可視化資料,降低計算及存儲壓力。

特征選擇簡單來說就是選出一個“候選子集”,對這個子集進行分類等處理時其效果好于原始資料,且子集特征小于原資料。如何決定這個“候選子集”?想要在出事特征集合中選取一個包含重要資訊的特征子集。若沒有任何領域知識作為先驗假設,就隻能周遊。但是這樣計算量會特别大。是以方法是先産生一個“候選子集”,再對其進行評估。是以需要兩個步驟,一是“子集搜尋”,二是“子集評價”。其中子集搜尋就是先确定候選子集中的一個屬性,并向其中加入另一個屬性。若分類性能變好,則加入這個屬性,若分類性能未變好,則舍棄這個屬性,并向其中加入另一個屬性。子集搜尋包括前進法,後退發,和逐漸回歸法。子集評價包含資訊增益,交叉熵,相關性,餘玄相似度等評價準則。兩者結合起來就是特征選擇方法,如前進法和資訊熵結合,顯然和決策樹很相似。常見特征選擇有三類方法:過濾式,包裹式,嵌入式

2)過濾式(filter)

過濾式方法先對資料集進行特征選擇,在訓練學習器。相當于先用特征選擇過程對初識特征進行過濾,再用過濾後的特征來訓練模型。過濾式方法不需要考慮後續學習器的選擇。

3)包裹式(wrapper)

于過濾式特征選擇不考慮後續學習器不同,包裹式特征選擇直接把最終将要使用的學習器性能作為特征子集的評價準則。其開銷比過濾式特征大,但最終學習性能更好。

4)嵌入式(embedding)

嵌入式特征選擇将特征選擇過程和機器訓練過程融為一體一體。兩者在同一優化過程中完成,即在學習器過程中自動進行了特征選擇。比如決策樹在分支的過程中,使用的就是嵌入式特征選擇方法,其内在還是根據某個度量名額對特征進行排序。

繼續閱讀