前言：

本篇文章上接《申請評分卡簡介》，有需要的童鞋可以參考下：

下面介紹下A卡的開發步驟。

開發過程

1、評分卡模型開發步驟：

1、立項：場景（營銷、信貸領域）、對象（個人、賬戶、公司）、目的（程度決策、流失預警、反欺詐等等）

2、資料的準備與預處理（賬戶，客戶，内部外部資料）

3、模組化的建構（邏輯回歸VS機器學習，單一模型VS 內建模型）

4、模型評估（區分度，預測性，穩定性）

5、驗證（是否有計算錯誤，邏輯錯誤，業務錯誤）

6、部署（從開發環境到生産環境、容量、并發度）

7、監控（性能是否減弱，是否需要重新訓練等）

2、申請評分卡常用的模型

邏輯回歸

優點：簡單，穩定，可解釋，技術成熟，易于監測和部署

缺點：準确度不高

決策樹

優點：對資料品質要求低，易解釋

缺點：準确度不高

其他元模型

組合模型

優點：準确度高，不易過拟合

缺點：不易解釋；部署困難；計算量大

3、貸款申請環節的資料介紹和描述

申請評分卡常用的特征

1、個人資訊：學曆（核查學曆）性别收入（流水、社保、公積金來側面檢視）

2、負債資訊：在本金融機構或者其他金融機構負債情況（在房貸、信用卡領域應用較多）

3、消費能力：商品購買紀錄，出境遊，奢侈品消費（）

4、曆史信用記錄：曆史逾期行為（第三方接口檢視）

5、新興資料：人際社交網絡足迹出行個人财務（人際社交：通過與老賴的關系來判斷他的人品（即還款意願）；出行：通過看這個人的出行交通工具判斷這個人的經濟能力（還款能力））

1、4可以看出還款意願；2、3可以看出還款能力。還款意願*還款能力=評分卡分數等級

4、A卡用到的字段介紹

字段	名稱
member_id	ID
loan_amnt	申請額度
term	産品期限
int_rate	利率
emp_length	工作期限
home_ownership	是否有自有住宅
annual_inc	年收入
verification_status	收入核驗狀态
desc	描述
purpose	貸款目的
title	貸款目的描述
zip_code	聯系位址郵政編碼
addr_state	聯系位址所屬州
delinq_2yrs	申貸日期前2年逾期次數
inq_last_6mths	申請日前6個月咨詢次數
mths_since_last_delinq	上次逾期距今月份數
mths_since_last_record	上次登記公衆記錄距今的月份數
open_acc	征信局中記錄的信用産品數
pub_rec	公衆不良記錄數
total_acc	正在使用的信用産品數
pub_rec_bankruptcies	公衆破産記錄數
earliest_cr_line	第一次借貸時間
loan_status	貸款狀态—目标變量

5、非平衡樣本問題的定義和解決方法

非平衡樣本的定義

在分類問題中，每種類别的出現機率未必均衡

例：

信用風險: 正常使用者遠多于逾期/違約使用者
流失風險: 留存客戶多于流失客戶

非平衡樣本的隐患

降低對少類樣本的靈敏性

非平衡樣本的解決方案

過采樣（對資料采集過多）

優點: 簡單，對資料品質要求不高（注意總結下各個算法對資料的要求）
缺點: 過拟合

欠采樣（對資料采集過少）

優點: 簡單，對資料品質要求不高
缺點: 丢失重要資訊

SMOTE(合成少數過采樣技術)

優點: 不易過拟合，保留資訊
缺點: 不能對有缺失值和類别變量做處理

6、資料預處理

資料格式的處理原始資料帶有一定的格式，需要轉換成正确的格式。

例如：

利率

帶%的百分比，需要轉化成浮點數

日期

Nov-17，需要轉化為python的時間

工作年限

“<1 year”轉化成0，“>10years”轉化成11

文本類的資料的處理方式

主題提取（NPL）

優點：提取準确、詳細的資訊，對風險的評估非帝有效

缺點：NPL的模型較為複雜，且需要足夠多的訓練樣本

編碼

優點：簡單

簡單缺點：資訊丢失很高

缺失值的處理

缺失在資料分析的工作是頻繁出現的。

缺失的種類

完全随機缺失
随機缺失
完全非随機缺失

處理的方法

補缺（平均值、或依據變量間的關系補充）
作為一種狀态
删除記錄或變量

7、建構特征

常用的特征衍生

計數：過去1年内申請貸款的總次數（手機聯系人數量、通話記錄來推斷這個人的一些資訊：如通話記錄多聯系人多則證明這個人搞業務的）
求和：過去1年内的網店消費總額
比例：貸款申請額度與年收入的占比
時間差：第一次開戶距今時長
波動率：過去3年内每份工作的時間的标準差

8、特征分箱（是對每一個特征進行分箱）

特征的分箱（為什麼要分箱）

分箱的定義

将連續變量離散化（将連續的變量分為多個離散的類别将特征分類别即收入1000-5000之間為一箱即一個類别）

将多狀态的離散變量合并成少狀态（盡可能的減小類别的數量）

分箱的重要性

穩定性：避免特征中無意義的波動對評分帶來的波動（如工資的浮動增減）
健壯性：避免了極端值的影響

分箱的優勢

可以将缺失作為獨立的一個箱帶入模型中
将所有變量變換到相似的尺度上

分箱的限制

計算量大
分箱後需要編碼

申請評分卡（A卡）的開發過程（1）前言：開發過程總結

總結

後續會詳細的介紹各種分箱的方法對應的原理，以及特征篩選對應的方法及原理等相關内容。争取把資料挖掘流程中常用的方法做一個統一的整理。

對應的代碼詳見：

https://github.com/645187919/financial_score_card

參考文章：碼農教程：http://www.manongjc.com/article/81806.html#google_vignette

本文原始文章連結：https://www.it610.com/article/1305285460372787200.htm

申請評分卡（A卡）的開發過程（1）前言：開發過程總結

前言：

開發過程

1、評分卡模型開發步驟：

2、申請評分卡常用的模型

3、貸款申請環節的資料介紹和描述

4、A卡用到的字段介紹

5、非平衡樣本問題的定義和解決方法

6、資料預處理

7、建構特征

8、特征分箱（是對每一個特征進行分箱）

總結

繼續閱讀

股海沉浮：10個值得警惕的做空信号

股利折現模型詳解-股票定價-财務管理（七）

Bank相關9_金融系列文章

一個軟體工程師的職業規劃(轉)

軟體設計師之職業規劃

一個軟體工程師的職業規劃

軟體工程師的務實職業生涯規劃（zz）

股指期貨ABC

什麼是期貨反跟單交易

【經濟學】讀曼昆《微觀經濟學》第一篇導言第二篇

基金英文術語

神舟電腦已走進死胡同專家建議上市後迅速轉型

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

投資學第二章 Asset Classes and Financial Instruments

基金盈利後的感悟

公募/私募基金