天天看點

<風控必備>一篇看懂風控系統搭建和風控模型開發

作者:CTO修煉之路

來源:知乎小柒同學

專欄位址:https://zhuanlan.zhihu.com/p/47059462

公衆号:信數金服

本篇從消費金融業務出發,詳細探讨了風控系統搭建和風控模型開發兩大部分内容。

風控系統搭建

消費金融業務有别于傳統銀行信貸業務,對審批的時效性要求極高,通常都需要在極短的時間之内輸出風控結果,是以傳統的人工風控方式無法滿足消費金融業務的需求,需要一套高效、精準的風控系統來做決策。我們有一套完善的風控解決方案,需要用系統來現實, 風控系統主要分為反欺詐系統、決策引擎系統、模型管理平台、審批系統、MIS報表系統核心系統。

1 風控系統核心要求

資料對接與加工 ——風控系統需要能夠對接包括使用者申請資料、第三方征信資料、曆史業務資料、埋點資訊等資料,并對這些資料進行加工與分析,從中篩選出符合業務需求的特征供風控政策集信用評分模型使用。

規則配置與管理 ——消費金融業務具有變化快的特征,是以對于風控政策及信用評分模型需要經常進行優化修改。可視化的規則管理與配置平台是風控系統必不可少的組成部分,可以幫助風控人員快速修改風控政策,及時響應業務需求。

政策全自動執行 ——消費金融業務需要實作實時審批,是以對于一個申請者而言,所有的風控政策及信用評分模型都需要在極短時間内運作完成,目前業界成熟的風控系統一般都是基于決策引擎技術開發,可以實作業務實時審批的需求。

<風控必備>一篇看懂風控系統搭建和風控模型開發

風控系統示意圖

2 反欺詐系統

規則閥值的配置系統: 能夠快速上線,例如:變量共享和規則共享、A/B test、空轉測試功能、線下效果評測等。

查詢系統 :能查詢每一單人的申請,從客戶現在的表現追溯到其申請時刻,能做一些關聯性的分析。

分析系統 :一般是自動化的,比如對曆史時長、IP位址進行一個跟蹤,也可以針對每一個反欺詐規則,追蹤今天申請了多少量,攔截了多少量。

預警系統 :如果發現異常現象,它可以随時預警。比如發現某一個IP位址、某一個GPS、某一個社群,它申請量急劇增加的時候,可以實作實時預警,這時候可以人工及時幹預,去修改規則引擎。

<風控必備>一篇看懂風控系統搭建和風控模型開發

反欺詐管理系統

3 決策引擎系統

決策引擎系統是一套最核心的系統,它相當于人的大腦,市面上有很多決策引擎系統,它看似簡單,但是底層技術架構狠難,故而研發實力一般的公司很難做出來,需要不斷疊代,時間、人力、成本較高。決策引擎的優點:高效,快捷,穩定,全面,更核心的是支援多條産品線。

a. 從資料源的配置到規則、模型(A、B、C評分卡)的部署 ,從測試并釋出規則、模型到業務實時監控 ,均可通過決策引擎界面操作實作;

b.支援貸前、貸中、貸後等場景的不同規則配置,規則主要包括評分卡、決策表、決策樹、表達式、規則流等類型。支援将定義好的産品政策導出成文本。

c.所有設定的規則均可同步至規則庫,将規則儲存後可在規則庫中統一進行管理,規則可重複利用;

d. 冠軍/挑戰者/驗證規則組部分提供了新規則釋出前的測試途徑,可設定不同規則組中稽核權重。各規則組中具有版本管理系統,每次更改後會生成新的版本,并保留之前版本,後期可進行切換(規則流);

e.對象管理中的因子管理中包括因子和函數兩個部分。因子管理可對字段進行添加和修改,可以手動逐個添加修改,同時也可以通過符合格式的excel表進行批量導入字段。函數僅提供檢視和規則中使用的權限;

以上功能和應用信數的明策決策引擎也能夠滿足,明策決策引擎本身來自矽谷,由決策引擎之父Charles Forgy 博士和原FICO Blaze Advisor與IBM ILOG團隊核心成員共同研發打造,曾被國際知名調研機構Gartner評為“Cool Vendor”。明策智能決策引擎将機器學習技術引入了決策管理,在規則管理的基礎上,能夠自身接入資料,執行規則,做出決策。并結合信數自身的本地化實踐進行了優化配置,配備了全中文的可視化界面。

4 模型管理平台

<風控必備>一篇看懂風控系統搭建和風控模型開發

模型管理平台的大緻功能

模型管理平台:包括整體的模組化流程、模型比較、參數調整、模型測試、模型釋出,模型監控等,釋出到決策引擎系統,一鍵上線。對于一些模組化能力不強的公司而言,裡面有内嵌很多基礎和常見算法模型(決策樹、邏輯回歸、随機森林、SVM),隻需線下清洗樣本資料,資料處理可直接生成模型。

5 MIS報表系統

a.營運型MIS: 由于消費金融業務組織較大,分工比較細,是以各部門營運人員的需求考慮未必相同。MIS人員需深入了解個股報表的用途及所期望的效益,考慮前後營運流程與相關報表的串連關系,給予使用機關建議。設計時依其用途與目的做全面性判斷規劃,避免單點考慮。

b.管理MIS: 與營運型MIS相比,管理MIS由管理的觀點出發,較偏重于探索數字背後所代表的意義,是以産出周期沒有營運型報表繁瑣,但報表内容更加深入,涵蓋層面更為廣泛。基本有幾個重點:對業務的了解、深入程度、關聯分析、名額的選擇。

c.決策型MIS: 由營運型及管理型MIS所衍生的多面向綜合分析。它具有實時性、正确性、完整性這幾個核心的特點。

d.風控MIS: 主要展現風控核心名額及風控流程監控。

<風控必備>一篇看懂風控系統搭建和風控模型開發

風控MIS核心内容

6 技術風控也是作業風險的核心

一個風控系統底層技術架構是非常重要的。故而需要注意:

a.在設計開發時,就要做好架構規劃,包括邏輯流程和系統的安全性等。網站規劃最重要的是資訊存儲的機密性,比如日志資訊、使用者資訊、網站代碼等。

b.要備援備份。

c.在業務上線之前,做好防D準備,比如伺服器高防、備援切換,多線路分流;做好安全檢測,滲透測試、移動端加殼加強、資料洩漏等。

審批系統較簡單,但是各家都有個性化的設定,在此不深入讨論。

風控模型開發

消費金融業務有别于傳統銀行信貸業務,對審批的時效性要求極高,通常都需要在極短的時間之内輸出風控結果,我們需要一套信用評分體系——信用評分卡模型,今天我們來說說信用評分卡。

信用評分的應用階段: 最開始的信用條件判斷、專家的意見精華、但基本以經驗給分,在選擇因子以及選擇權重時皆須反複摸索修改,且無法考慮到因子之間的關系。

後續回歸分析等統計開始被運用到信用評分裡面。信用評分卡是基于曆史資料為基礎建立的,其有效性是建立在未來的信用表現與過去相同的假設前提下(過去不代表未來),一旦遭遇其他客觀因素影響,假設不成立,模型的預測能力就會受到影響——模型生命周期(産品的生命周期直接影響到模型)

更多關于信用評分卡的詳細内容可點選以下三篇檢視詳情:

一文看懂經典信用評分卡與機器學習應用

9個步驟教你從0到1開發評分卡

如何用機器學習做信用評分卡?

1 用評分卡的主要功能

a、以科學的方法将風險模式資料化

b、提供風險刻量尺,減少客觀因素的影響

c、減少人力成本以及提高風險管理效率

信貸産品ABC信用評分卡的分類:按照時機分類

a、申請評分卡

b、行為評分卡

c、催收平卡

在我們給新申請使用者發放貸款會考慮三個問題:使用者資質問題(能不能通過)、額度(給多少錢)、利率(利息是多少?),申請評分卡就是解決這個三個問題,貸前風控也是整體風控體系的核心。

2 評分卡開發流程

申請評分卡的開發流程如圖所示

<風控必備>一篇看懂風控系統搭建和風控模型開發

評分卡的開發流程

1、資料擷取

評分卡開發的首要任務是擷取相關資料,幾乎都有的金融機構都會收集資料并将其儲存在相關的資料庫中,這些資料分布在不同的資料表格中。是以将這些資料要素整合在一個資料集以用來模組化成為評分卡是首要任務。

資料擷取也有一些常用的資料聯結和整合的方法,對整個資料集進行預處理(包括業務衍生名額以及分析變量的整合、資料校準、資料合并、資料整合、資料完整性檢驗)。

2、EDA與資料描述

探索性資料分析(EDA)和資料描述是檢查資料并了解其特征的一系列過程的名稱,在評分卡開發過程中,需要進行下列分析:

EDA資料描述包含以下過程:

a、描述性統計分析——每個變量的單變量統計

b、評估每個變量的分布并檢驗正态假設

c、極端值的識别和處理

d、缺失值的計算和處理

e、關鍵變量的列聯表及統計量計算

f、變量間的相關性和關聯性名額計算

3、資料準備

資料準備是整個評分卡開發過程中最重要,也是最耗時的工作,資料準備階段花的時間占了整個項目時間的80%以上,資料準備的目的是建立所謂的資料挖掘,即包含開發評分卡模型所需要素的唯一資料集,通常需要進行大量的資料清洗和轉換工作,以建立具有較強預測能力的自變量。

更多關于資料清洗與資料挖掘的詳細内容可點選以下兩篇檢視詳情:

一文看懂資料清洗

淺談資料挖掘在信用評估中的應用

原則上,資料準備重點關注的是:

a、從不同管道手機和整合建立評分卡所需的資料

b、清理資料中所有的意外錯誤或被認為是極端值的取值

c、違約因變量的特征細分(産生新的因變量可以幫助提高模型的預測能力)

d、通過将某些變量整合并降低名義變量的基數性

e、将連續性變量分段,進行woe轉換

f、抽樣和權重計算

舉個常見的例子:證據權重(woe)轉換時評分卡開發過程中一個特有的資料準備過程,使用所有的變量需要進行woe轉換。然而對變量轉換之前需要減少分類變量的技術,需要将連續性變量分段。分段和降低基數與woe轉換一次,被稱為組分類。

在模型開發之前,資料擷取、EDA與資料描述、資料準備、變量選擇其實都是可以了解為資料挖掘和資料清洗。資料準備和EDA是兩個密切相關的步驟,一般來說EDA和資料描述表現出需要的具體資料變量的轉換,而資料準備生成需要進行分析和描述的新變量,是以這兩者的順序不是固定,是人的主觀決定的

4、變量選擇

資料準備和轉換過程的成果就是産生了衆多自變量,但是并不是所有的自變量都會在模型中得到實際應用,往往我們資料資料清洗後有很多的模組化變量,處理如此大量資料的做好防範就是隻選擇那些表現出較強預測能力的變量,以減少變量的數量。

5、模型開發

理想中最佳的信用評分模型可以将所有的好壞客戶完全清楚劃分,在實際結果中壞客戶的比例通常會很低,無法突顯風險因子的特征,是以在抽樣時會可以将違約樣本的比例拉高,好壞樣本比例大概為3:1-5:1,70%資料樣本做訓練集來建立模型,30%資料樣本作為測試集在完成後作為驗證之用。市面上90%機構用邏輯回歸算法來建立評分卡模型,對于不同的産品,可以嘗試用不同的算法(随機森林,支援向量機,決策樹,神經網絡,xgboost等)建立不同的模型。

6、模型預測

模型建立完成後的驗證可分為樣本外驗證和時間外驗證,前者使用30%測試資料樣本,後者則使用模組化樣本期間外的案件進行測試。

衡量模型預測能力常見名額有:

a、ks值:評判模型區分好壞客戶的能力,是統一使用的标準。

<風控必備>一篇看懂風控系統搭建和風控模型開發

KS值越大模型越好

b、ROC曲線:說明模型泛化能力的另一個名額

<風控必備>一篇看懂風控系統搭建和風控模型開發

AUC值越高模型越好

c、WOE&IV:評估變量的預測能力的名額

d、GINI系數:評判模型區分好壞客戶的能力名額

<風控必備>一篇看懂風控系統搭建和風控模型開發

GINI系數越大模型越好

信用評分涉及到很多數學和統計學的概念, 了解起來會有一些難度,故而有很多的細節暫不較長的描述,本篇隻簡單闡述下信用評分開發流程以及原理(關于模型預測與評價的更詳細介紹可檢視本次第二篇推送内容)。對于風控而言,還是有必要掌握這些,至少說對風控就更有底氣和信心。

鼎鼎幫研發的 信貸員展業神器,深雷探偵APP。 隻需基本三要素,姓名+身份證号碼+手機号碼即可查詢 風險資訊掃描、模糊風險資訊掃描、客戶三個月内行為檢測、多平台借貸檢測、不良資訊掃描 。進而不僅做到風險前置,并且提高信貸員工作時效,提高貸款稽核通過率 。

版權聲明:本公衆号如有引用和轉載他人文章,則必定會在文章中标明原文的作者和來源出處。如有侵權,請背景留言,我們将在第一時間予以處理!

繼續閱讀