風控資料挖掘方法簡介
決策樹算法
決策樹的生成隻考慮局部最優,
決策樹的剪枝則考慮全局最優。
從邏輯回歸到決策樹
決策樹總體流程:
- 自根至葉的遞歸過程
- 在每一個中間節點尋找一個“劃分”屬性
三種停止條件
- 目前節點的所有樣本都屬于某類
- 目前屬性值為空或所有屬性值相當
- 目前節點的樣本為空
最佳屬性劃分依據
- 資訊增益:ID3,取值多的屬性,資訊增益更大,容易得到龐大但淺的樹。分類
- 資訊增益率:C4.5,消除因特征取值越多,資訊增益越大的情況。分類
- 基尼系數:CART,最小化純度。回歸或分類
特征 | ID3 | C4.5 | CART |
---|---|---|---|
樹種類 | 非二叉樹 | 非二叉樹 | 二叉樹 |
回歸/分類 | 分類 | 分類 | 回歸&分類 |
特征利用 | 不重複使用特征 | 不重複使用特征 | 重複使用特征 |
回歸樹
決策樹優點:簡單、邏輯清晰、可解釋性好
補充
bagging思想
- 有放回的重複抽樣。
- 代表的方法:随機森林(行采樣,列采樣——權重投票)