風控-評分卡模型建立流程

評分卡模組化流程

對于風控中的評分卡模型，常用A/B/C三類評分卡。其中A類評分卡指貸前的信用評分卡，用于審批等流程。B類主要是貸中，起到對使用者還款進行預警和提醒作用。C類評分卡主要用于催收等催收流程。

下面以A卡為例，大緻介紹一下評分卡模組化的簡易流程：

風控-評分卡模型建立流程

評分卡目标确定：

評分卡可以使用在多種情況，要想建立一個評分卡必須首先确立建立評分卡用途（審批，催收等）以及要使用的人群，這直接關系到我們樣本的選取和标簽的建立，如果沒有對評分卡建立明确的目标，會影響到後續模型标簽的履歷，導緻整個評分卡模型失效，全部的工作推到重來。是以前期必須要反複商讨評分卡的用途，并且各方觀點必須達成一緻。
觀察期和表現期确定、好壞樣本的定義：

觀察期用于确定模組化特征的時間跨度，表現期用于确定使用者最終的狀态。可以用下圖表示：

風控-評分卡模型建立流程

觀察期的資料即可以帶入模型的資料。是以觀察期理論上時間越長越好，但同時越古老的資訊對現在的的影響也越小，同時由于模型複雜度限制，觀察期在實際應用中也無需太長，一般使用12個左右即可。

使用者進行申請等行為，或模型輸出的結果的時刻就是我們所說的觀察點，是觀察期與表現期的分割點，我們使用的觀察期的資料，預測時表現期的表現。

表現是我們評分卡準備預測時時間長度，比如使用者未來12個月違約的機率。這個時間的長度是與我們的産品息息相關的，比如現金貸、消費貸等産品一般期限都不會太長。

表現期中使用者會表現出不同的行為，我們可以根據曆史上使用者表現期的行為來定義使用者标簽。比如在貸前評分卡中，我們可以将表現期的不同表現分為“好人（按時還款)”，“壞人（逾期切基本可能歸還）”，“不确定（不确定未來走向）“

标簽的定制會直接影響後面模型的效果，是以我們必須合理的劃分人群。判斷我們對人群的劃分是否合理，我們可以使用滾動分析的方法。

風控-評分卡模型建立流程
滾動分析分析的是在度過表現期後，使用者的狀态變化。如果我們定義的合理，好使用者和壞使用者發生狀态轉移的機率應該都比較小。
樣本提取

建立評分卡，我們需要提取樣本進行模組化，此時必須要注意的是，我們的樣本的特征資料必須來自于使用者的觀察期。有一些資料名額雖然名義上是觀察期的資料，但由于統計周期的存在，實際名額統計出的時間晚于觀察點，這一類的資料也是不可用的。

有了好壞樣本的定義，有了使用者的特征資料，我們便可以建立一個評分卡模型。
變量分析與特征工程

4.1.資料清洗

包括删除缺失率較大的特征，異常值、無用值、重複值的剔除等。就是資料挖掘的常用流程

4.2.特征轉換

特征處理，特征組合等過程。具體包括字元型特征轉換成數值特征、時間特征轉換天數、特征是否需要歸一化，特征間互相組合等等。特征組合可以更好的挖掘資訊，但像神經網絡一類模型可以自動挖掘特征，對于此類模型可以不用做在複雜的特征設計。

4.3.特征選取

常見的特征工程中變量篩選，可以分為有過濾式（Filter）、包裹時（Wrapper）、嵌入式（Embedding）三種方式。風控中的過濾式篩選還會根據變量的IV、KS等方式進行特征篩選和特征效力的判定。具體的方式和代碼可以看我的另一篇部落格：特征選擇 Python代碼
模型參數确定、拒絕推論和風險校準

比如邏輯回歸、決策樹、神經網絡等分類模型都可以使用，但是不同的模型對樣本量的要求不一樣。我們根據我們現有的特征次元和資料量的大小選用合适的模型，然後進行模型訓練和參數的确定。

現實中由于樣本量的限制和幸存者偏差等問題，還可以選擇性的使用拒絕推論來豐富模型，分入将所有的拒絕使用者當做負樣本，加入模型訓練。有或者将拒絕使用者帶入模型，按照其分數進行在配置設定。

假如我們有多個子模型，我們還需要進行風險校準，使不同評分卡下的相同分數的違約機率一緻。
模型驗證

一般我們不但使用測試集進行驗證。而且還需要時間外樣本驗證模型效果，一般關注的名額有：

6.1. AUC：

關于AUC資料，網上一查一大堆，就是以假正率為橫軸（False Positive Rate），真正率（）為縱軸的roc曲線下的面積。一般評分卡中，auc>0.6模型能用，auc>0.7效果較好，auc>0.8效果非常好，auc>0.9模型可能出現問題，并且auc對樣本不平衡問題不敏感，在評分卡模型中，樣本不平衡問題通常是比較嚴重的。

6.2. KS

ks是正負樣本的累計分布曲線的最大內插補點。一般ks>0.2模型有一點效果，ks>0.3效果适中，ks>0.4效果很好，ks>0.6模型可能出現問題。同樣的ks曲線對樣本不平衡是不敏感的。

6.3. 逾期人群的召回率：

通常來說，對于逾期使用者我們損失的全部本金。是以我們需要特别注意逾期人群的召回率，有時候甯可錯差10個，也不能放過1個。

6.4. 基尼系數：

基尼系數是從分數從高到低（假設越高越好），以累計正常比例為橫軸，以累計違約比例為縱軸的曲線與過原點斜率為1的曲線圍城的面積，名額越大越好。實際上0.5*Gini+0.5=AUC。是以Gini和AUC看一個就行。

6.5. psi：

衡量模型穩定性名額，其公式定義與IV值類似。psi越小越好，psi<=0.1,母體在兩個時間點無名顯變化，需持續監控；psi<0.25,母體在兩個時間點有部分變化，需密切觀察變化是否擴大；psi>=0.25,母體在兩個時間點有顯著變化，需搭配鑒别度結果進行評分模型的調整
模型應用

将訓練好的模型和模型使用的特征應用在生産環境中。即下面的，評分卡應用流程。
模型監控

監控名額多種多樣，可以根據業務情況進行設計。常見的，我們需要監控的有，使用者的分數分布情況（是否存在異常或與以往不一緻的現象）、産品的逾期率是否穩定、模型的psi穩定性、模型所使用的特征穩定性（包括缺失率，分布穩定性等）。
模型疊代

使用新的曆史資料不斷更新模型參數，并根據監控效果調整模型。

評分卡線上流程

輸入：傳入使用者申請使用者的模型所需特征，和已經建立好的評分卡模型

輸出：輸出該使用者的評分

風控-評分卡模型建立流程

風控-評分卡模型建立流程

評分卡模組化流程

評分卡線上流程

繼續閱讀

BWT (Burrows–Wheeler_transform) 解碼分析

遺傳算法的進一步探究—多種群_數學模組化matlab算法(六)

Day07-數學基礎-經濟問題(DataWhale)

了解次元資料倉庫——事實表、次元表、聚合表

HDOJ 3664 Permutation Counting / UVALive 5092 DP

有關拉格朗日反演的擴充形式的證明

模組化筆記——标準化和歸一化标準化和歸一化的差別

企業架構——資料架構之資料模組化

數學模組化——層次分析法（Matlab）【評價類問題】建立遞階層次結構構造判斷矩陣一緻性檢驗計算總權重并排序

【CF 125D】 Two progressions 劃分等差數列

Codeforces Round #319 (Div. 2) B C D

2018年高教社杯A題高溫作業專用服裝設計

2017多校訓練Contest4: 1003 Counting Divisors hdu6069

數學模組化--線性回歸和線性相關性分析基于R語言

【數模】相關性分析一、四種基本變量二、相關性分析方法三、偏相關

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法