評分卡模組化流程
對于風控中的評分卡模型,常用A/B/C三類評分卡。其中A類評分卡指貸前的信用評分卡,用于審批等流程。B類主要是貸中,起到對使用者還款進行預警和提醒作用。C類評分卡主要用于催收等催收流程。
下面以A卡為例,大緻介紹一下評分卡模組化的簡易流程:
-
評分卡目标确定:
評分卡可以使用在多種情況,要想建立一個評分卡必須首先确立建立評分卡用途(審批,催收等)以及要使用的人群,這直接關系到我們樣本的選取和标簽的建立,如果沒有對評分卡建立明确的目标,會影響到後續模型标簽的履歷,導緻整個評分卡模型失效,全部的工作推到重來。是以前期必須要反複商讨評分卡的用途,并且各方觀點必須達成一緻。
-
觀察期和表現期确定、好壞樣本的定義:
觀察期用于确定模組化特征的時間跨度,表現期用于确定使用者最終的狀态。可以用下圖表示:
觀察期的資料即可以帶入模型的資料。是以觀察期理論上時間越長越好,但同時越古老的資訊對現在的的影響也越小,同時由于模型複雜度限制,觀察期在實際應用中也無需太長,一般使用12個左右即可。
使用者進行申請等行為,或模型輸出的結果的時刻就是我們所說的觀察點,是觀察期與表現期的分割點,我們使用的觀察期的資料,預測時表現期的表現。
表現是我們評分卡準備預測時時間長度,比如使用者未來12個月違約的機率。這個時間的長度是與我們的産品息息相關的,比如現金貸、消費貸等産品一般期限都不會太長。
表現期中使用者會表現出不同的行為,我們可以根據曆史上使用者表現期的行為來定義使用者标簽。比如在貸前評分卡中,我們可以将表現期的不同表現分為“好人(按時還款)”,“壞人(逾期切基本可能歸還)”,“不确定(不确定未來走向)“
标簽的定制會直接影響後面模型的效果,是以我們必須合理的劃分人群。判斷我們對人群的劃分是否合理,我們可以使用滾動分析的方法。
滾動分析分析的是在度過表現期後,使用者的狀态變化。如果我們定義的合理,好使用者和壞使用者發生狀态轉移的機率應該都比較小。 -
樣本提取
建立評分卡,我們需要提取樣本進行模組化,此時必須要注意的是,我們的樣本的特征資料必須來自于使用者的觀察期。有一些資料名額雖然名義上是觀察期的資料,但由于統計周期的存在,實際名額統計出的時間晚于觀察點,這一類的資料也是不可用的。
有了好壞樣本的定義,有了使用者的特征資料,我們便可以建立一個評分卡模型。
-
變量分析與特征工程
4.1.資料清洗
包括删除缺失率較大的特征,異常值、無用值、重複值的剔除等。就是資料挖掘的常用流程
4.2.特征轉換
特征處理,特征組合等過程。具體包括字元型特征轉換成數值特征、時間特征轉換天數、特征是否需要歸一化,特征間互相組合等等。特征組合可以更好的挖掘資訊,但像神經網絡一類模型可以自動挖掘特征,對于此類模型可以不用做在複雜的特征設計。
4.3.特征選取
常見的特征工程中變量篩選,可以分為有過濾式(Filter)、包裹時(Wrapper)、嵌入式(Embedding)三種方式。風控中的過濾式篩選還會根據變量的IV、KS等方式進行特征篩選和特征效力的判定。具體的方式和代碼可以看我的另一篇部落格:特征選擇 Python代碼
-
模型參數确定、拒絕推論和風險校準
比如邏輯回歸、決策樹、神經網絡等分類模型都可以使用,但是不同的模型對樣本量的要求不一樣。我們根據我們現有的特征次元和資料量的大小選用合适的模型,然後進行模型訓練和參數的确定。
現實中由于樣本量的限制和幸存者偏差等問題,還可以選擇性的使用拒絕推論來豐富模型,分入将所有的拒絕使用者當做負樣本,加入模型訓練。有或者将拒絕使用者帶入模型,按照其分數進行在配置設定。
假如我們有多個子模型,我們還需要進行風險校準,使不同評分卡下的相同分數的違約機率一緻。
-
模型驗證
一般我們不但使用測試集進行驗證。而且還需要時間外樣本驗證模型效果,一般關注的名額有:
6.1. AUC:
關于AUC資料,網上一查一大堆,就是以假正率為橫軸(False Positive Rate),真正率()為縱軸的roc曲線下的面積。一般評分卡中,auc>0.6模型能用,auc>0.7效果較好,auc>0.8效果非常好,auc>0.9模型可能出現問題,并且auc對樣本不平衡問題不敏感,在評分卡模型中,樣本不平衡問題通常是比較嚴重的。
6.2. KS
ks是正負樣本的累計分布曲線的最大內插補點。一般ks>0.2模型有一點效果,ks>0.3效果适中,ks>0.4效果很好,ks>0.6模型可能出現問題。同樣的ks曲線對樣本不平衡是不敏感的。
6.3. 逾期人群的召回率:
通常來說,對于逾期使用者我們損失的全部本金。是以我們需要特别注意逾期人群的召回率,有時候甯可錯差10個,也不能放過1個。
6.4. 基尼系數:
基尼系數是從分數從高到低(假設越高越好),以累計正常比例為橫軸,以累計違約比例為縱軸的曲線與過原點斜率為1的曲線圍城的面積,名額越大越好。實際上0.5*Gini+0.5=AUC。是以Gini和AUC看一個就行。
6.5. psi:
衡量模型穩定性名額,其公式定義與IV值類似。psi越小越好,psi<=0.1,母體在兩個時間點無名顯變化,需持續監控;psi<0.25,母體在兩個時間點有部分變化,需密切觀察變化是否擴大;psi>=0.25,母體在兩個時間點有顯著變化,需搭配鑒别度結果進行評分模型的調整
-
模型應用
将訓練好的模型和模型使用的特征應用在生産環境中。即下面的,評分卡應用流程。
-
模型監控
監控名額多種多樣,可以根據業務情況進行設計。常見的,我們需要監控的有,使用者的分數分布情況(是否存在異常或與以往不一緻的現象)、産品的逾期率是否穩定、模型的psi穩定性、模型所使用的特征穩定性(包括缺失率,分布穩定性等)。
-
模型疊代
使用新的曆史資料不斷更新模型參數,并根據監控效果調整模型。
評分卡線上流程
輸入:傳入使用者申請使用者的模型所需特征,和已經建立好的評分卡模型
輸出:輸出該使用者的評分