金融風控02風控資料挖掘方法簡介

2023-05-10 13:44:53

風控資料挖掘方法簡介

決策樹算法

決策樹的生成隻考慮局部最優，

決策樹的剪枝則考慮全局最優。

從邏輯回歸到決策樹

決策樹總體流程：

自根至葉的遞歸過程
在每一個中間節點尋找一個“劃分”屬性

三種停止條件

目前節點的所有樣本都屬于某類
目前屬性值為空或所有屬性值相當
目前節點的樣本為空

最佳屬性劃分依據

資訊增益：ID3，取值多的屬性，資訊增益更大，容易得到龐大但淺的樹。分類
資訊增益率：C4.5，消除因特征取值越多，資訊增益越大的情況。分類
基尼系數：CART，最小化純度。回歸或分類

特征	ID3	C4.5	CART
樹種類	非二叉樹	非二叉樹	二叉樹
回歸/分類	分類	分類	回歸&分類
特征利用	不重複使用特征	不重複使用特征	重複使用特征

回歸樹

決策樹優點：簡單、邏輯清晰、可解釋性好

金融風控02風控資料挖掘方法簡介

金融風控02風控資料挖掘方法簡介

補充

bagging思想

有放回的重複抽樣。
代表的方法：随機森林（行采樣，列采樣——權重投票）

上一篇: 金融風控項目各鐘名額用途彙總

下一篇: 互聯金融風控-多頭借貸

繼續閱讀