sklearn 随機森林_如何篩選特征？用随機森林（RF）

2023-06-29 03:21:26

一般情況下，資料集的特征成百上千，是以有必要從中選取對結果影響較大的特征來進行進一步模組化，相關的方法有：主成分分析、lasso等，這裡我們介紹的是通過随機森林來進行篩選。

用随機森林進行特征重要性評估的思想比較簡單，主要是看每個特征在随機森林中的每棵樹上做了多大的貢獻，然後取平均值，最後比較不同特征之間的貢獻大小。

貢獻度的衡量名額包括：基尼指數(gini)、袋外資料(OOB)錯誤率作為評價名額來衡量。

衍生知識點：權重随機森林的應用(用于增加小樣本的識别機率，進而提高總體的分類準确率)

随機森林/CART樹在使用時一般通過gini值作為切分節點的标準，而在權重随機森林(WRF)中，權重的本質是賦給小類較大的權重，給大類較小的權重。也就是給小類更大的懲罰。權重的作用有2個，第1點是用于切分點選擇中權重計算gini值，表達式如下：

sklearn 随機森林_如何篩選特征？用随機森林（RF）

随機森林針對小樣本資料類權重設定

https://wenku.baidu.com/view/07ba98cca0c7aa00b52acfc789eb172ded639998.html

sklearn 随機森林_如何篩選特征？用随機森林（RF）

通過sklearn中的随機森林傳回特征的重要性：

sklearn 随機森林_如何篩選特征？用随機森林（RF）

舉個樣例：

sklearn 随機森林_如何篩選特征？用随機森林（RF）

sklearn.metrics中的評估方法介紹：

sklearn 随機森林_如何篩選特征？用随機森林（RF）

參考：http://blog.csdn.net/cherdw/article/details/54971771

網格搜尋調參：

grid.fit()：運作網格搜尋

grid_scores_：給出不同參數情況下的評價結果

best_params_：描述了已取得最佳結果的參數的組合

best_score_：成員提供優化過程期間觀察到的最好的評分

sklearn 随機森林_如何篩選特征？用随機森林（RF）

http://www.cnblogs.com/xiaochouk/p/8583255.html

繼續閱讀