評分卡模組化的特征工程

2023-03-14 08:11:36

前言

在評分卡模組化的過程中，最重要的是樣本和特征，最耗時間的也是樣本抽取以及特征工程。特别是在小公司，從資料抽取、到資料清洗、再到變量衍生基本都是一個人來完成。當然小公司的次元少，相對應的變量也少。但是，随着業務的發展以及外部環境的變化，一直維持着之前的業務分析次元是很難跟上其他公司的腳步的。拓展次元最好的方法就是衍生變量，這也不僅僅對模組化有幫助，對風險規則的制定也有益。

變量衍生也是基于已經有的資料進行挖掘，一般風控手上都會有申請表資料，征信資料、流水資料、營運商資料等等。

接下來講講自己工作上用到的一些衍生方法

1. 申請表變量交叉

主要用在申請表變量上，比如：年齡和收入進行交叉；或者婚姻與性别，收入與房産等等。這部分交叉資料也比較多，但更需要追求在業務上的解釋。

2. 缺失值處理

如果有缺失值超過30%的變量，那缺失值處理就是最簡單的衍生變量方法。缺失值處理也有很多種的方法，如：連續值：使用均值，中值，0來替換；類别型：使用最多的類、單獨為一類來替換。每一種處理方式都能得出新一列變量。但是，在處理的時候，需要先去了解缺失值出現的原因。比如，申請表上工作年限字段出現空缺。可能是客戶未填，那樣是可以做處理的。也可能是申請表上已經取消了工作年限，那就沒有必要做處理了，因為這個字段已經無法擷取，可以剔除了。

3. 外部資料

一般在對這些資料進行衍生時，首先需要去熟悉原始資料，将原始資料中能進行分類的點和衍生次元記下來，最後加上統計方法。是先将想到的衍生點記下來，然後一個一個去枚舉衍生，再做交叉衍生。

以營運商資料為例，

分類點：通話時長，通話次數，主叫次數，聯系人個數，話費等等。

衍生次元：近1月，近3月，白天，工作日等等。

統計方法：總和，最大值，平均值等等。

可以衍生出變量：近1月通話總時長，近一月平均每日通話時長，近1月工作日通話總時長。

交叉衍生：近1月工作日通話總時長占所有通話時長比例。

除了上述，還有一些其他的角度也可以豐富特征：

如：

近期性：最近一次貸款距今時長。

嚴重性：信用卡逾期次數，流水超月收入次數。

4.使用模型衍生，對變量進行轉換。

如使用gbdt衍生變量，或者對變量做轉換，如：log，平方等等。這裡有些問題就是變量在業務上不好解釋（如果是用在行為評分就無所謂了）和後期不好調整。

結束語

變量衍生的方法有很多種，這裡也隻是寫一些常用的，如果有不足或問題，歡迎指出。最近在研究自動特征工程的一個python包，後面有空也更新一下。

評分卡模組化的特征工程

前言

結束語

繼續閱讀

NLP要大規模落地了？？

猿創征文｜基于魯棒控制理論的微電網優化排程（Matlab代碼實作）

基于條件紋理和結構并行生成的圖像修複【ICCV 2021 翻譯】

【解析】從MDA到低代碼

大資料倉庫

遺留代碼處理技巧與案例示範

拓端tecdat|SAS Visual Analytics代寫時間序列模組化三部曲

關聯規則APRIORI挖掘豆瓣讀書評論爬蟲采集資料與可視化

基于深度學習的工業圖像異常定位（檢測）綜述

獲獎作品《重力》超詳細制作過程！建議碼住！

拓端tecdat|R語言代寫輔導線性混合效應模型實戰案例

從源碼的角度解釋調用sklearn.metrics中roc_curve()方法的疑惑

《軟體方法》第8章連載8.1.6.6-8.1.6.7

《軟體方法》第8章20151120更新

《軟體方法（下）》連載（2）

關于領域模組化的感悟