一般情況下,資料集的特征成百上千,是以有必要從中選取對結果影響較大的特征來進行進一步模組化,相關的方法有:主成分分析、lasso等,這裡我們介紹的是通過随機森林來進行篩選。
用随機森林進行特征重要性評估的思想比較簡單,主要是看每個特征在随機森林中的每棵樹上做了多大的貢獻,然後取平均值,最後比較不同特征之間的貢獻大小。
貢獻度的衡量名額包括:基尼指數(gini)、袋外資料(OOB)錯誤率作為評價名額來衡量。
衍生知識點:權重随機森林的應用(用于增加小樣本的識别機率,進而提高總體的分類準确率)
随機森林/CART樹在使用時一般通過gini值作為切分節點的标準,而在權重随機森林(WRF)中,權重的本質是賦給小類較大的權重,給大類較小的權重。也就是給小類更大的懲罰。權重的作用有2個,第1點是用于切分點選擇中權重計算gini值,表達式如下:

随機森林針對小樣本資料類權重設定
https://wenku.baidu.com/view/07ba98cca0c7aa00b52acfc789eb172ded639998.html
通過sklearn中的随機森林傳回特征的重要性:
舉個樣例:
sklearn.metrics中的評估方法介紹:
參考:http://blog.csdn.net/cherdw/article/details/54971771
網格搜尋調參:
grid.fit():運作網格搜尋
grid_scores_:給出不同參數情況下的評價結果
best_params_:描述了已取得最佳結果的參數的組合
best_score_:成員提供優化過程期間觀察到的最好的評分
http://www.cnblogs.com/xiaochouk/p/8583255.html