天天看点

<风控必备>一篇看懂风控系统搭建和风控模型开发

作者:CTO修炼之路

来源:知乎小柒同学

专栏地址:https://zhuanlan.zhihu.com/p/47059462

公众号:信数金服

本篇从消费金融业务出发,详细探讨了风控系统搭建和风控模型开发两大部分内容。

风控系统搭建

消费金融业务有别于传统银行信贷业务,对审批的时效性要求极高,通常都需要在极短的时间之内输出风控结果,因此传统的人工风控方式无法满足消费金融业务的需求,需要一套高效、精准的风控系统来做决策。我们有一套完善的风控解决方案,需要用系统来现实, 风控系统主要分为反欺诈系统、决策引擎系统、模型管理平台、审批系统、MIS报表系统核心系统。

1 风控系统核心要求

数据对接与加工 ——风控系统需要能够对接包括用户申请数据、第三方征信数据、历史业务数据、埋点信息等数据,并对这些数据进行加工与分析,从中筛选出符合业务需求的特征供风控策略集信用评分模型使用。

规则配置与管理 ——消费金融业务具有变化快的特征,因此对于风控策略及信用评分模型需要经常进行优化修改。可视化的规则管理与配置平台是风控系统必不可少的组成部分,可以帮助风控人员快速修改风控策略,及时响应业务需求。

策略全自动执行 ——消费金融业务需要实现实时审批,因此对于一个申请者而言,所有的风控策略及信用评分模型都需要在极短时间内运行完成,目前业界成熟的风控系统一般都是基于决策引擎技术开发,可以实现业务实时审批的需求。

<风控必备>一篇看懂风控系统搭建和风控模型开发

风控系统示意图

2 反欺诈系统

规则阀值的配置系统: 能够快速上线,例如:变量共享和规则共享、A/B test、空转测试功能、线下效果评测等。

查询系统 :能查询每一单人的申请,从客户现在的表现追溯到其申请时刻,能做一些关联性的分析。

分析系统 :一般是自动化的,比如对历史时长、IP地址进行一个跟踪,也可以针对每一个反欺诈规则,追踪今天申请了多少量,拦截了多少量。

预警系统 :如果发现异常现象,它可以随时预警。比如发现某一个IP地址、某一个GPS、某一个社区,它申请量急剧增加的时候,可以实现实时预警,这时候可以人工及时干预,去修改规则引擎。

<风控必备>一篇看懂风控系统搭建和风控模型开发

反欺诈管理系统

3 决策引擎系统

决策引擎系统是一套最核心的系统,它相当于人的大脑,市面上有很多决策引擎系统,它看似简单,但是底层技术框架狠难,故而研发实力一般的公司很难做出来,需要不断迭代,时间、人力、成本较高。决策引擎的优点:高效,快捷,稳定,全面,更核心的是支持多条产品线。

a. 从数据源的配置到规则、模型(A、B、C评分卡)的部署 ,从测试并发布规则、模型到业务实时监控 ,均可通过决策引擎界面操作实现;

b.支持贷前、贷中、贷后等场景的不同规则配置,规则主要包括评分卡、决策表、决策树、表达式、规则流等类型。支持将定义好的产品策略导出成文本。

c.所有设置的规则均可同步至规则库,将规则保存后可在规则库中统一进行管理,规则可重复利用;

d. 冠军/挑战者/验证规则组部分提供了新规则发布前的测试途径,可设置不同规则组中审核权重。各规则组中具有版本管理系统,每次更改后会生成新的版本,并保留之前版本,后期可进行切换(规则流);

e.对象管理中的因子管理中包括因子和函数两个部分。因子管理可对字段进行添加和修改,可以手动逐个添加修改,同时也可以通过符合格式的excel表进行批量导入字段。函数仅提供查看和规则中使用的权限;

以上功能和应用信数的明策决策引擎也能够满足,明策决策引擎本身来自硅谷,由决策引擎之父Charles Forgy 博士和原FICO Blaze Advisor与IBM ILOG团队核心成员共同研发打造,曾被国际知名调研机构Gartner评为“Cool Vendor”。明策智能决策引擎将机器学习技术引入了决策管理,在规则管理的基础上,能够自身接入数据,执行规则,做出决策。并结合信数自身的本地化实践进行了优化配置,配备了全中文的可视化界面。

4 模型管理平台

<风控必备>一篇看懂风控系统搭建和风控模型开发

模型管理平台的大致功能

模型管理平台:包括整体的建模流程、模型比较、参数调整、模型测试、模型发布,模型监控等,发布到决策引擎系统,一键上线。对于一些建模能力不强的公司而言,里面有内嵌很多基础和常见算法模型(决策树、逻辑回归、随机森林、SVM),只需线下清洗样本数据,数据处理可直接生成模型。

5 MIS报表系统

a.运营型MIS: 由于消费金融业务组织较大,分工比较细,因此各部门运营人员的需求考虑未必相同。MIS人员需深入了解个股报表的用途及所期望的效益,考虑前后运营流程与相关报表的串连关系,给予使用单位建议。设计时依其用途与目的做全面性判断规划,避免单点考虑。

b.管理MIS: 与运营型MIS相比,管理MIS由管理的观点出发,较偏重于探索数字背后所代表的意义,因此产出周期没有运营型报表繁琐,但报表内容更加深入,涵盖层面更为广泛。基本有几个重点:对业务的了解、深入程度、关联分析、指标的选择。

c.决策型MIS: 由运营型及管理型MIS所衍生的多面向综合分析。它具有实时性、正确性、完整性这几个核心的特点。

d.风控MIS: 主要体现风控核心指标及风控流程监控。

<风控必备>一篇看懂风控系统搭建和风控模型开发

风控MIS核心内容

6 技术风控也是作业风险的核心

一个风控系统底层技术架构是非常重要的。故而需要注意:

a.在设计开发时,就要做好架构规划,包括逻辑流程和系统的安全性等。网站规划最重要的是信息存储的机密性,比如日志信息、用户信息、网站代码等。

b.要冗余备份。

c.在业务上线之前,做好防D准备,比如服务器高防、冗余切换,多线路分流;做好安全检测,渗透测试、移动端加壳加固、数据泄漏等。

审批系统较简单,但是各家都有个性化的设置,在此不深入讨论。

风控模型开发

消费金融业务有别于传统银行信贷业务,对审批的时效性要求极高,通常都需要在极短的时间之内输出风控结果,我们需要一套信用评分体系——信用评分卡模型,今天我们来说说信用评分卡。

信用评分的应用阶段: 最开始的信用条件判断、专家的意见精华、但基本以经验给分,在选择因子以及选择权重时皆须反复摸索修改,且无法考虑到因子之间的关系。

后续回归分析等统计开始被运用到信用评分里面。信用评分卡是基于历史数据为基础建立的,其有效性是建立在未来的信用表现与过去相同的假设前提下(过去不代表未来),一旦遭遇其他客观因素影响,假设不成立,模型的预测能力就会受到影响——模型生命周期(产品的生命周期直接影响到模型)

更多关于信用评分卡的详细内容可点击以下三篇查看详情:

一文看懂经典信用评分卡与机器学习应用

9个步骤教你从0到1开发评分卡

如何用机器学习做信用评分卡?

1 用评分卡的主要功能

a、以科学的方法将风险模式数据化

b、提供风险刻量尺,减少客观因素的影响

c、减少人力成本以及提高风险管理效率

信贷产品ABC信用评分卡的分类:按照时机分类

a、申请评分卡

b、行为评分卡

c、催收平卡

在我们给新申请用户发放贷款会考虑三个问题:用户资质问题(能不能通过)、额度(给多少钱)、利率(利息是多少?),申请评分卡就是解决这个三个问题,贷前风控也是整体风控体系的核心。

2 评分卡开发流程

申请评分卡的开发流程如图所示

<风控必备>一篇看懂风控系统搭建和风控模型开发

评分卡的开发流程

1、数据获取

评分卡开发的首要任务是获取相关数据,几乎都有的金融机构都会收集数据并将其储存在相关的数据库中,这些数据分布在不同的数据表格中。因此将这些数据要素整合在一个数据集以用来建模成为评分卡是首要任务。

数据获取也有一些常用的数据联结和整合的方法,对整个数据集进行预处理(包括业务衍生指标以及分析变量的整合、数据校准、数据合并、数据整合、数据完整性检验)。

2、EDA与数据描述

探索性数据分析(EDA)和数据描述是检查数据并理解其特征的一系列过程的名称,在评分卡开发过程中,需要进行下列分析:

EDA数据描述包含以下过程:

a、描述性统计分析——每个变量的单变量统计

b、评估每个变量的分布并检验正态假设

c、极端值的识别和处理

d、缺失值的计算和处理

e、关键变量的列联表及统计量计算

f、变量间的相关性和关联性指标计算

3、数据准备

数据准备是整个评分卡开发过程中最重要,也是最耗时的工作,数据准备阶段花的时间占了整个项目时间的80%以上,数据准备的目的是创建所谓的数据挖掘,即包含开发评分卡模型所需要素的唯一数据集,通常需要进行大量的数据清洗和转换工作,以创建具有较强预测能力的自变量。

更多关于数据清洗与数据挖掘的详细内容可点击以下两篇查看详情:

一文看懂数据清洗

浅谈数据挖掘在信用评估中的应用

原则上,数据准备重点关注的是:

a、从不同渠道手机和整合建立评分卡所需的数据

b、清理数据中所有的意外错误或被认为是极端值的取值

c、违约因变量的特征细分(产生新的因变量可以帮助提高模型的预测能力)

d、通过将某些变量整合并降低名义变量的基数性

e、将连续性变量分段,进行woe转换

f、抽样和权重计算

举个常见的例子:证据权重(woe)转换时评分卡开发过程中一个特有的数据准备过程,使用所有的变量需要进行woe转换。然而对变量转换之前需要减少分类变量的技术,需要将连续性变量分段。分段和降低基数与woe转换一次,被称为组分类。

在模型开发之前,数据获取、EDA与数据描述、数据准备、变量选择其实都是可以理解为数据挖掘和数据清洗。数据准备和EDA是两个密切相关的步骤,一般来说EDA和数据描述表现出需要的具体数据变量的转换,而数据准备生成需要进行分析和描述的新变量,所以这两者的顺序不是固定,是人的主观决定的

4、变量选择

数据准备和转换过程的成果就是产生了众多自变量,但是并不是所有的自变量都会在模型中得到实际应用,往往我们数据数据清洗后有很多的建模变量,处理如此大量数据的做好防范就是只选择那些表现出较强预测能力的变量,以减少变量的数量。

5、模型开发

理想中最佳的信用评分模型可以将所有的好坏客户完全清楚划分,在实际结果中坏客户的比例通常会很低,无法突显风险因子的特征,因此在抽样时会可以将违约样本的比例拉高,好坏样本比例大概为3:1-5:1,70%数据样本做训练集来建立模型,30%数据样本作为测试集在完成后作为验证之用。市面上90%机构用逻辑回归算法来建立评分卡模型,对于不同的产品,可以尝试用不同的算法(随机森林,支持向量机,决策树,神经网络,xgboost等)建立不同的模型。

6、模型预测

模型建立完成后的验证可分为样本外验证和时间外验证,前者使用30%测试数据样本,后者则使用建模样本期间外的案件进行测试。

衡量模型预测能力常见指标有:

a、ks值:评判模型区分好坏客户的能力,是统一使用的标准。

<风控必备>一篇看懂风控系统搭建和风控模型开发

KS值越大模型越好

b、ROC曲线:说明模型泛化能力的另一个指标

<风控必备>一篇看懂风控系统搭建和风控模型开发

AUC值越高模型越好

c、WOE&IV:评估变量的预测能力的指标

d、GINI系数:评判模型区分好坏客户的能力指标

<风控必备>一篇看懂风控系统搭建和风控模型开发

GINI系数越大模型越好

信用评分涉及到很多数学和统计学的概念, 理解起来会有一些难度,故而有很多的细节暂不详细描述,本篇只简单阐述下信用评分开发流程以及原理(关于模型预测与评价的更详细介绍可查看本次第二篇推送内容)。对于风控而言,还是有必要掌握这些,至少说对风控就更有底气和信心。

鼎鼎帮研发的 信贷员展业神器,深雷探侦APP。 只需基本三要素,姓名+身份证号码+手机号码即可查询 风险信息扫描、模糊风险信息扫描、客户三个月内行为检测、多平台借贷检测、不良信息扫描 。从而不仅做到风险前置,并且提高信贷员工作时效,提高贷款审核通过率 。

版权声明:本公众号如有引用和转载他人文章,则必定会在文章中标明原文的作者和来源出处。如有侵权,请后台留言,我们将在第一时间予以处理!

继续阅读