天天看點

申請評分卡(A卡)的開發過程(1)前言:開發過程總結

前言:

本篇文章上接《申請評分卡簡介》,有需要的童鞋可以參考下:

下面介紹下A卡的開發步驟。

開發過程

1、評分卡模型開發步驟:

1、立項:場景(營銷、信貸領域)、對象(個人、賬戶、公司)、目的(程度決策、流失預警、反欺詐等等)

2、資料的準備與預處理(賬戶,客戶,内部外部資料)

3、模組化的建構(邏輯回歸VS機器學習,單一模型VS 內建模型)

4、模型評估(區分度,預測性,穩定性)

5、驗證(是否有計算錯誤,邏輯錯誤,業務錯誤)

6、部署(從開發環境到生産環境、容量、并發度)

7、監控(性能是否減弱,是否需要重新訓練等)

2、申請評分卡常用的模型

邏輯回歸

優點:簡單,穩定,可解釋,技術成熟,易于監測和部署

缺點:準确度不高

決策樹

優點:對資料品質要求低,易解釋

缺點:準确度不高

其他元模型

組合模型

優點:準确度高,不易過拟合

缺點:不易解釋;部署困難;計算量大

3、貸款申請環節的資料介紹和描述

申請評分卡常用的特征

1、個人資訊 :學曆(核查學曆) 性别 收入(流水、社保、公積金來側面檢視)

2、負債資訊 :在本金融機構或者其他金融機構負債情況 (在房貸、信用卡領域應用較多)

3、消費能力 :商品購買紀錄,出境遊,奢侈品消費 ()

4、曆史信用記錄 :曆史逾期行為 (第三方接口檢視)

5、新興資料: 人際社交 網絡足迹 出行 個人财務(人際社交:通過與老賴的關系來判斷他的人品(即還款意願);出行:通過看這個人的出行交通工具判斷這個人的經濟能力(還款能力))

1、4可以看出還款意願;2、3可以看出還款能力。還款意願*還款能力=評分卡分數等級

4、A卡用到的字段介紹

字段 名稱
member_id ID
loan_amnt 申請額度
term 産品期限
int_rate 利率
emp_length 工作期限
home_ownership 是否有自有住宅
annual_inc 年收入
verification_status 收入核驗狀态
desc 描述
purpose 貸款目的
title 貸款目的描述
zip_code 聯系位址郵政編碼
addr_state 聯系位址所屬州
delinq_2yrs 申貸日期前2年逾期次數
inq_last_6mths 申請日前6個月咨詢次數
mths_since_last_delinq 上次逾期距今月份數
mths_since_last_record 上次登記公衆記錄距今的月份數
open_acc 征信局中記錄的信用産品數
pub_rec 公衆不良記錄數
total_acc 正在使用的信用産品數
pub_rec_bankruptcies 公衆破産記錄數
earliest_cr_line 第一次借貸時間
loan_status 貸款狀态—目标變量

5、非平衡樣本問題的定義和解決方法

非平衡樣本的定義

在分類問題中,每種類别的出現機率未必均衡

例:

  • 信用風險: 正常使用者遠多于逾期/違約使用者
  • 流失風險: 留存客戶多于流失客戶

非平衡樣本的隐患

  • 降低對少類樣本的靈敏性

非平衡樣本的解決方案

過采樣(對資料采集過多)

  • 優點: 簡單,對資料品質要求不高 (注意總結下各個算法對資料的要求)
  • 缺點: 過拟合

欠采樣 (對資料采集過少)

  • 優點: 簡單,對資料品質要求不高
  • 缺點: 丢失重要資訊

SMOTE(合成少數過采樣技術)

  • 優點: 不易過拟合,保留資訊
  • 缺點: 不能對有缺失值和類别變量做處理

6、資料預處理

資料格式的處理原始資料帶有一定的格式,需要轉換成正确的格式。

例如:

利率

  • 帶%的百分比,需要轉化成浮點數

日期

  • Nov-17,需要轉化為python的時間

工作年限

  • “<1 year”轉化成0,“>10years”轉化成11

文本類的資料的處理方式

主題提取(NPL)

優點:提取準确、詳細的資訊,對風險的評估非帝有效

缺點:NPL的模型較為複雜,且需要足夠多的訓練樣本

編碼

優點:簡單

簡單缺點:資訊丢失很高

缺失值的處理

缺失在資料分析的工作是頻繁出現的。

缺失的種類

  • 完全随機缺失
  • 随機缺失
  • 完全非随機缺失

處理的方法

  • 補缺(平均值、或依據變量間的關系補充)
  • 作為一種狀态
  • 删除記錄或變量

7、建構特征

常用的特征衍生

  • 計數:過去1年内申請貸款的總次數(手機聯系人數量、通話記錄來推斷這個人的一些資訊:如通話記錄多聯系人多則證明這個人搞業務的)
  • 求和:過去1年内的網店消費總額
  • 比例:貸款申請額度與年收入的占比
  • 時間差:第一次開戶距今時長
  • 波動率:過去3年内每份工作的時間的标準差

8、特征分箱(是對每一個特征進行分箱)

特征的分箱(為什麼要分箱)

分箱的定義

将連續變量離散化(将連續的變量分為多個離散的類别将特征分類别即收入1000-5000之間為一箱即一個類别)

将多狀态的離散變量合并成少狀态(盡可能的減小類别的數量)

分箱的重要性

  • 穩定性:避免特征中無意義的波動對評分帶來的波動(如工資的浮動增減)
  • 健壯性:避免了極端值的影響

分箱的優勢

  • 可以将缺失作為獨立的一個箱帶入模型中
  • 将所有變量變換到相似的尺度上

分箱的限制

  • 計算量大
  • 分箱後需要編碼
    申請評分卡(A卡)的開發過程(1)前言:開發過程總結

總結

後續會詳細的介紹各種分箱的方法對應的原理,以及特征篩選對應的方法及原理等相關内容。争取把資料挖掘流程中常用的方法做一個統一的整理。

對應的代碼詳見:

https://github.com/645187919/financial_score_card

參考文章:碼農教程:http://www.manongjc.com/article/81806.html#google_vignette

本文原始文章連結:https://www.it610.com/article/1305285460372787200.htm