天天看點

《Credit Risk Scorecard》第四章:Data Review and Project Parameters

範濤 發表于2017-03-31 第四章:Scorecard Development Process, Stage 2: Data Review and Project Parameters

一: data avaliablity and quality

資料擷取,數量和品質,可靠和幹淨的資料是需要的。 資料數量需要滿足多樣性,統計顯著和随機。 具體數量大小,目前不是關鍵,依賴壞樣本定義。 對于申請評分卡(application scorecard),俗稱A卡,需要包含拒絕的樣本。通過拒絕推斷(reject inference)技術去推斷拒絕樣本中好樣本和壞樣本。 資料源的擷取:内部資料和外部資料, 高品質内部資料需要處理,外部資料需要評估,量化和定義。重要一點是,個人建議: 資料源穩定性要監控,模型開發要考慮到源資料延時和缺失的情況。

二: Data Gathering for Definition of Project Parameters

 對于申請評分卡來說,需要收集之前2到5年的樣本資料,或者大量足夠的樣本。相關字段(包括但不局限):  (1)身份id; (2)申請日期; (3)賬号拖欠和索賠曆史資料; (4)接受/拒絕 标記; (5)産品/通道,或者其他辨別符; (6)目前賬号狀态(e.g., 不活躍,關閉,丢失,被盜,欺詐等)

對于行為評分卡(behavior scorecard)來說,俗稱B卡,賬戶選擇是在一個時間點上,對他們的行為分析,通常以6到12個月為周期。

三:  Definition of Project Parameters

3.1  Exclusions      評分卡模型有時候需要過濾掉一些特定賬号樣本。開發涉及的賬号樣本是應該是應用到潛在使用者,日常貸款針對的人群。對一些異常表現群體,如欺詐群體。還有員工,vip,國外,盜卡,未成年這些群體,是不能加入開發模型,需要采用一些特殊規則進行處理。 對于一些金融公司如果之前客戶涉及比較多,比如一家汽車貸款公司,之前貸款業務包括個人汽車業務,駕駛技術業務等,如果現在業務聚焦到個人汽車貸款業務,那他評分卡開發涉及的樣本則需要改變,隻能包含個人汽車貸款使用者樣本。      對于exclusion的另外一個了解,這些exclusions可以看成一種sample bias 案例。比如你開發評分卡模型隻針對城市人口,那你開發樣本中則不能包含任何非城市人口。總體來說,如果一個群體或者申請類型,在未來應用上是不會被評分的,那這些樣本是不應該加入模型開發中的。

3.2  Performance and Sample Windows and “Bad” Definition ( 表現視窗,樣本視窗,以及壞樣本定義)      評分卡模型是基于這樣一個假設“未來的表現将反映過去的表現" 。      是以,我們在收集樣本時候,需要考慮一個具體時間點開戶的賬戶,同時監控他們另外一個具體時間段表現,來确定這些樣本是好的還是壞的。開發樣本資料包含了樣本變量和樣本目标标簽。    “perfomance window”(表現視窗)定義:為了确定 賬戶分類(好的還是壞的)而監控賬戶行為的時間視窗。      “sample window”(樣本視窗)定義:選取已經确定好壞分類标簽的開發樣本的時間點。      表現視窗在樣本視窗之後。              

《Credit Risk Scorecard》第四章:Data Review and Project Parameters
如何确定樣本視窗和表現視窗,常見的方法是vintage analysis。 通過觀察不同表現視窗,觀察不良率曲線是否達到穩定。一般選取達到穩定期的時間窗。
《Credit Risk Scorecard》第四章:Data Review and Project Parameters

“ever bad”define:對于表現視窗期内任何時間點達到預先定義好的不良狀态,則賬戶分類為壞樣本。

“current”define:隻考慮最近最後一個月的不良狀态。

下面是一個賬号24個月的不良曆史行為記錄,delq行代表逾期月數。 如果采用“ever bad”define方法,這個賬戶分類為3個月不良狀态,如果采用“current”define方法,這個賬号被分類為無不良狀态。

《Credit Risk Scorecard》第四章:Data Review and Project Parameters

3.3 Effects of Seasonality

樣本選擇時候需要考慮季節性影響。我們的開發樣本不應該包含異常時間段樣本, 我們開發樣本應該和正常商業時間段保持一緻。這樣能保證之前的假設“未來和過去是相似的”,也能確定模型的預測準确性和魯棒性。 如何過濾異常時間段樣本? 一種常見的方法,通過比較使用者特征平均屬性和樣本視窗開發樣本特征屬性。
《Credit Risk Scorecard》第四章:Data Review and Project Parameters
舉個例子:  一個公司期望他們的信用卡申請者主要是成年的男士和女士,但是他們發現樣本視窗中有一個月樣本主要年輕人。這種情況是那個月有一個汽車展。針對這種情況,需要擴大樣本視窗,來平滑特征時間段的影響。 還有一種處理方式,就是過濾異常時間段樣本。比如一個公司确定他未來針對的客戶不會包括年輕女性,那麼開發樣本中就可以過濾掉年輕女性樣本。 季節性影響,也可以通過采取多樣本視窗,固定表現視窗的的方法來處理。

3.4 Definition of “Bad”

如何定義賬戶表現是否是壞樣本?  破産,欺詐行為是一種相對直接的壞賬戶 定義 方式,但不是唯一方式。如果按照不良率方式定義的話,這裡會涉及到根據不同不良等級的多種選擇。

對于壞賬戶的定義,會有如下的考慮:

 (1)需要和公司目标保持一緻;

(2)需要和産品或者評分卡針對的目标保持一緻;

(3)如果是設定相對嚴謹的定義,比如120+天不良率,準确率會相對較高,但是樣本量會減少;

(4)如果設定相對寬松的定義,比如30天不良率,樣本會很多,但是準确率會降低,好壞樣本的區分度不夠強,評分卡模型會變弱;

(5)定義必須好解釋和追蹤;

(6) 針對同一公司,不同場景的評分卡,使用相對統一定義,是相對有益,這樣友善管理。

(7) 有時需要遵守一些國家規定或者官方組織約定的定義方式;

常見的确定定義,采用滾動率分析( Roll Rate Analysis )和 目前和曆史最壞比較分析(Current versus Worst Delinquency Comparison)

"Roll Rate Analysis" :  滾動率分析主要分析比如30天不良行為賬戶中有多少比率轉化成60天不良 行為 賬戶,60天不良 行為 賬戶多少比率轉化為90天不良 行為 賬戶等等。比如下面中可以發現,對于30天不良 行為 賬戶有13%率轉化成更長時間不良 行為 賬戶。通過滾動率分析,主要确定多長時間不良行為的賬戶大多數會成為最終的壞賬戶。通過最短的表現視窗來捕獲絕大多數壞賬戶樣本。

《Credit Risk Scorecard》第四章:Data Review and Project Parameters
《Credit Risk Scorecard》第四章:Data Review and Project Parameters

Current versus Worst Delinquency Comparison: 其實和滾動率分析很相似,但是相對容易執行。分析賬戶曆史最壞不良狀态和最近不良狀态,進行比較。從下面圖可以,看到曆史30天不良行為賬戶,84%最近都沒有不良行為,相反90天曆史不良賬戶60%最近都保持90天不良行為或者更長時間不良行為。和滾動分析類似,這種方法,也是為了确定多長時間不良行為的賬戶大多數會成為最終的壞賬戶。

《Credit Risk Scorecard》第四章:Data Review and Project Parameters

3.5 “Good” and “Indeterminate”

好樣本定義和中間不确定樣本定義。

Good 好樣本特性可能:(1)無不良行為或者不良行為前向滾動率低于10%(前向滾動率: 比如30天不良行為向60天不良行為轉化率)。(2)盈利的,正向NPV;  (3)無索賠; (4)無破産;(5)無欺詐; Indeterminate: 指那些沒有落入bad和good類目中的賬戶樣本。這樣賬戶沒有足夠多的表現曆史或者有不良行為但是滾動率比較低(比如有30天不良行為,但是沒有進一步向更高風險轉化)。 常見特性可能如下:(1)命中30天或者60天不良行為,但是沒有進一步前向滾動; (2)不活躍使用者或者自動取消使用者; (3)不經常使用賬戶;  (4)索賠金額低于某個門檻值的保險賬戶; (5)NPV=0的賬戶; 一般 Indeterminate賬戶不超過10%-15%比率,如果過高,是需要核查相關原因。 真實評分卡開發時候,隻會包含好壞樣本。

4 Segmentation

相對采用統一的評分卡,分場景切割樣本,按不同場景建構不同評分卡模型可能更有效。 常見的場景劃分方法:(1)專家經驗和領域知識,再加以統計分析;(2)統計方法,如聚類和決策樹等;  4.1 專家經驗 劃分的方式:(1)人口統計學規則:根據地理位置,年齡等。(2)産品類型:金卡或者普通卡,保險類型等 (3)獲客來源:客戶來源來源于店面, 網際網路,經銷商,電話等  (4) 資料來源;(5)申請類型: 新使用者還是老使用者; 

4.2 統計方法(略)

4.3 comparing the improvement 什麼樣的劃分是合理的?相對不劃分是否有提升? 這裡主要參考c-stat,ks統計或者商業上的提升。具體可以參考下面兩幅圖。

《Credit Risk Scorecard》第四章:Data Review and Project Parameters
《Credit Risk Scorecard》第四章:Data Review and Project Parameters
4.4 chose segments 至于選擇什麼劃分方式,需要綜合考慮開發代價,實作代價,監控政策等。

繼續閱讀