天天看點

風控-評分卡模型建立流程

評分卡模組化流程

對于風控中的評分卡模型,常用A/B/C三類評分卡。其中A類評分卡指貸前的信用評分卡,用于審批等流程。B類主要是貸中,起到對使用者還款進行預警和提醒作用。C類評分卡主要用于催收等催收流程。

下面以A卡為例,大緻介紹一下評分卡模組化的簡易流程:

風控-評分卡模型建立流程
  1. 評分卡目标确定:

    評分卡可以使用在多種情況,要想建立一個評分卡必須首先确立建立評分卡用途(審批,催收等)以及要使用的人群,這直接關系到我們樣本的選取和标簽的建立,如果沒有對評分卡建立明确的目标,會影響到後續模型标簽的履歷,導緻整個評分卡模型失效,全部的工作推到重來。是以前期必須要反複商讨評分卡的用途,并且各方觀點必須達成一緻。

  2. 觀察期和表現期确定、好壞樣本的定義:

    觀察期用于确定模組化特征的時間跨度,表現期用于确定使用者最終的狀态。可以用下圖表示:

    風控-評分卡模型建立流程

    觀察期的資料即可以帶入模型的資料。是以觀察期理論上時間越長越好,但同時越古老的資訊對現在的的影響也越小,同時由于模型複雜度限制,觀察期在實際應用中也無需太長,一般使用12個左右即可。

    使用者進行申請等行為,或模型輸出的結果的時刻就是我們所說的觀察點,是觀察期與表現期的分割點,我們使用的觀察期的資料,預測時表現期的表現。

    表現是我們評分卡準備預測時時間長度,比如使用者未來12個月違約的機率。這個時間的長度是與我們的産品息息相關的,比如現金貸、消費貸等産品一般期限都不會太長。

    表現期中使用者會表現出不同的行為,我們可以根據曆史上使用者表現期的行為來定義使用者标簽。比如在貸前評分卡中,我們可以将表現期的不同表現分為“好人(按時還款)”,“壞人(逾期切基本可能歸還)”,“不确定(不确定未來走向)“

    标簽的定制會直接影響後面模型的效果,是以我們必須合理的劃分人群。判斷我們對人群的劃分是否合理,我們可以使用滾動分析的方法。

    風控-評分卡模型建立流程
    滾動分析分析的是在度過表現期後,使用者的狀态變化。如果我們定義的合理,好使用者和壞使用者發生狀态轉移的機率應該都比較小。
  3. 樣本提取

    建立評分卡,我們需要提取樣本進行模組化,此時必須要注意的是,我們的樣本的特征資料必須來自于使用者的觀察期。有一些資料名額雖然名義上是觀察期的資料,但由于統計周期的存在,實際名額統計出的時間晚于觀察點,這一類的資料也是不可用的。

    有了好壞樣本的定義,有了使用者的特征資料,我們便可以建立一個評分卡模型。

  4. 變量分析與特征工程

    4.1.資料清洗

    包括删除缺失率較大的特征,異常值、無用值、重複值的剔除等。就是資料挖掘的常用流程

    4.2.特征轉換

    特征處理,特征組合等過程。具體包括字元型特征轉換成數值特征、時間特征轉換天數、特征是否需要歸一化,特征間互相組合等等。特征組合可以更好的挖掘資訊,但像神經網絡一類模型可以自動挖掘特征,對于此類模型可以不用做在複雜的特征設計。

    4.3.特征選取

    常見的特征工程中變量篩選,可以分為有過濾式(Filter)、包裹時(Wrapper)、嵌入式(Embedding)三種方式。風控中的過濾式篩選還會根據變量的IV、KS等方式進行特征篩選和特征效力的判定。具體的方式和代碼可以看我的另一篇部落格:特征選擇 Python代碼

  5. 模型參數确定、拒絕推論和風險校準

    比如邏輯回歸、決策樹、神經網絡等分類模型都可以使用,但是不同的模型對樣本量的要求不一樣。我們根據我們現有的特征次元和資料量的大小選用合适的模型,然後進行模型訓練和參數的确定。

    現實中由于樣本量的限制和幸存者偏差等問題,還可以選擇性的使用拒絕推論來豐富模型,分入将所有的拒絕使用者當做負樣本,加入模型訓練。有或者将拒絕使用者帶入模型,按照其分數進行在配置設定。

    假如我們有多個子模型,我們還需要進行風險校準,使不同評分卡下的相同分數的違約機率一緻。

  6. 模型驗證

    一般我們不但使用測試集進行驗證。而且還需要時間外樣本驗證模型效果,一般關注的名額有:

    6.1. AUC:

    關于AUC資料,網上一查一大堆,就是以假正率為橫軸(False Positive Rate),真正率()為縱軸的roc曲線下的面積。一般評分卡中,auc>0.6模型能用,auc>0.7效果較好,auc>0.8效果非常好,auc>0.9模型可能出現問題,并且auc對樣本不平衡問題不敏感,在評分卡模型中,樣本不平衡問題通常是比較嚴重的。

    6.2. KS

    ks是正負樣本的累計分布曲線的最大內插補點。一般ks>0.2模型有一點效果,ks>0.3效果适中,ks>0.4效果很好,ks>0.6模型可能出現問題。同樣的ks曲線對樣本不平衡是不敏感的。

    6.3. 逾期人群的召回率:

    通常來說,對于逾期使用者我們損失的全部本金。是以我們需要特别注意逾期人群的召回率,有時候甯可錯差10個,也不能放過1個。

    6.4. 基尼系數:

    基尼系數是從分數從高到低(假設越高越好),以累計正常比例為橫軸,以累計違約比例為縱軸的曲線與過原點斜率為1的曲線圍城的面積,名額越大越好。實際上0.5*Gini+0.5=AUC。是以Gini和AUC看一個就行。

    6.5. psi:

    衡量模型穩定性名額,其公式定義與IV值類似。psi越小越好,psi<=0.1,母體在兩個時間點無名顯變化,需持續監控;psi<0.25,母體在兩個時間點有部分變化,需密切觀察變化是否擴大;psi>=0.25,母體在兩個時間點有顯著變化,需搭配鑒别度結果進行評分模型的調整

  7. 模型應用

    将訓練好的模型和模型使用的特征應用在生産環境中。即下面的,評分卡應用流程。

  8. 模型監控

    監控名額多種多樣,可以根據業務情況進行設計。常見的,我們需要監控的有,使用者的分數分布情況(是否存在異常或與以往不一緻的現象)、産品的逾期率是否穩定、模型的psi穩定性、模型所使用的特征穩定性(包括缺失率,分布穩定性等)。

  9. 模型疊代

    使用新的曆史資料不斷更新模型參數,并根據監控效果調整模型。

評分卡線上流程

輸入:傳入使用者申請使用者的模型所需特征,和已經建立好的評分卡模型

輸出:輸出該使用者的評分

風控-評分卡模型建立流程

繼續閱讀