天天看點

金融風控02風控資料挖掘方法簡介

風控資料挖掘方法簡介

決策樹算法

決策樹的生成隻考慮局部最優,

決策樹的剪枝則考慮全局最優。

從邏輯回歸到決策樹

決策樹總體流程:

  • 自根至葉的遞歸過程
  • 在每一個中間節點尋找一個“劃分”屬性

三種停止條件

  • 目前節點的所有樣本都屬于某類
  • 目前屬性值為空或所有屬性值相當
  • 目前節點的樣本為空

最佳屬性劃分依據

  • 資訊增益:ID3,取值多的屬性,資訊增益更大,容易得到龐大但淺的樹。分類
  • 資訊增益率:C4.5,消除因特征取值越多,資訊增益越大的情況。分類
  • 基尼系數:CART,最小化純度。回歸或分類
特征 ID3 C4.5 CART
樹種類 非二叉樹 非二叉樹 二叉樹
回歸/分類 分類 分類 回歸&分類
特征利用 不重複使用特征 不重複使用特征 重複使用特征

回歸樹

決策樹優點:簡單、邏輯清晰、可解釋性好

金融風控02風控資料挖掘方法簡介
金融風控02風控資料挖掘方法簡介

補充

bagging思想

  • 有放回的重複抽樣。
  • 代表的方法:随機森林(行采樣,列采樣——權重投票)

繼續閱讀