基于消費信用評估的風控

2019-12-10 23:50:00

業務背景

信用評估是被目前社會廣泛關注的領域，特别是在金融行業，如果可以通過每個使用者的曆史交易資料以及使用者畫像資料确定使用者的個人信用，将有助于銀行設定個人借貸額度，确定潛在風險。本文将介紹在金融風控領域如何進行使用者畫像，使用什麼樣的算法可以計算出每個使用者的信用名額。

業務痛點

評分卡是金融領域經典的計算使用者信用的算法，目前許多金融機構缺少雲端可處理大規模樣本資料的評分卡算法。

解決方案

PAI平台提供了一套基于評分卡體系的分箱、樣本穩定性評估、評分模型訓練和評估算法

1.人力要求：需要具備基礎的評分卡模組化經驗

2.開發周期：1-2天

3.資料要求：最好有超過千條的打标資料，資料包含使用者曆史交易資料和基本使用者畫像

資料說明

資料來自國外真實脫敏後的銀行消費資料，一共包含30000條樣本，其中正常還款的6636個樣例，非正常還款23364個樣例

特征資料：

參數名稱	參數描述
ID	使用者ID
LIMIT_BAL	目前使用者的額度
SEX	1是男，2是女
EDUCATION	1研究所學生，2大學，3高中生，其它
MARRIAGE	1結婚，2單身，3其它
AGE	年齡
PAY_0	9月付款情況：-1 按時付錢，1遲付款一個月，2遲付款兩個月......
PAY_2~PAY_6	同PAY_0，分拆每個月的付款情況
BILL_AMT1~BILL_AMT6	每個月的具體賬單是多少
PAY_AMT1~PAY_AMT6	上個月償還的金額是多少

目标資料：


payment_next_month	使用者是否還款，1是還款，0是未還款

流程說明

進入PAI-Studio産品：

https://pai.data.aliyun.com/console

該方案資料和實驗環境已經内置于首頁模闆：

打開實驗：

1.拆分

将輸入資料集分為兩部分，一部分用來訓練模型，另一部分用來預測評估。

2.分箱

分箱元件類似于onehot編碼，可以将資料按照分布映射成更高次元的特征。以age字段為例，分箱元件可以按照資料在不同區間的分布進行分箱操作，分箱結果如圖所示。

最終分箱元件的輸出如下圖所示，每個字段都被分箱到多個區間上。

3.樣本穩定指數PSI

樣本穩定指數是衡量樣本變化所産生的偏移量的一種重要名額，通常用來衡量樣本的穩定程度。比如樣本在兩個月份之間的變化是否穩定。通常變量的PSI值在0.1以下表示變化不太顯著，在0.1到0.25之間表示變化比較顯著，大于0.25表示變量變化比較劇烈，需要特殊關注。

本案例中，綜合比較拆分前後以及分箱結果的樣本穩定程度，傳回每個特征的PSI數值，如下圖所示:

4.評分卡訓練

評分卡訓練的結果圖如下所示：

評分卡的精髓是将複雜的模型權重用符合業務标準的分數表示。

intercepy：截距。
Unscaled：原始的權重值。
Scaled：分數更改名額，比如對于pay_0這個特征，如果特征落在(-1,0]之間分數就減29，如果特征落在（0，1]之間分數就加上27。
importance：每個特征對于結果的影響大小，數值越大表示影響越大。

5.評分卡預測

每個預測結果的最終評分，本案例中表示的是每個使用者的信用評分。

總結

基于使用者的信用卡消費記錄，通過評分卡模型訓練及評分卡預測得到了每個使用者的最終信用評分，這個評分可以應用到各種貸款或者金融相關的征信領域中。

基于消費信用評估的風控

業務背景

業務痛點

解決方案

資料說明

流程說明

1.拆分

2.分箱

3.樣本穩定指數PSI

4.評分卡訓練

5.評分卡預測

總結

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

【python】【資料處理】畫多元資料分布圖

hdu7108哈希