天天看點

如何對資料進行評估

對于一個金融機構而言,流量和風控決定利潤,而資料品質是風控核心。為提升風控水準,會引入新的資料源,面對新資料次元時,一般都會思考兩個方面:資料能否用,資料如何用。本篇文章會從線下資料測試、線下資料評價、線上資料應用整個流程介紹如何謹慎的評估一個資料源。

一、線下資料評估

1.1 、不同類型資料源的評估

首先,将資料分成4類,黑名單類、評分類,變量類,原始資料類。

黑名單類應用在反欺詐環節,一般通過“命中率”、“逾期率”這兩個名額評估資料的有效性。一個好的黑名單應具有的性質是“命中即逾期”,即為保證準确性,黑名單的命中率一般不會很高(5%之内),但隻要命中,逾期機率就很高。

評分類的變量直接作為風控政策使用,一般通過“缺失率”“有效性”“穩定性”“與現有資料共線性”“投入産出”這5個方面去評估。當評分具有穩定的排序能力,可用作客戶分層或者準入。當評分具有明顯的尾部極端趨勢,可做準入規則,攔截掉極端的壞客戶或者準入極端好客戶。

變量類一般考慮政策/模型環節使用,一般通過“缺失率”“有效性”“穩定性”“變量之間的共線性”“與現有資料共線性”“投入産出”去評估。當變量具有穩定的排序能力,考慮建立模型。當變量具有極端趨勢且變量含義具有欺詐的性質,可考慮做一條反欺詐的規則。

原始資料類,一般是客戶授權爬取的資訊,需要做特征工程後評估資料的價值。評估方法同變量類資料。

1.2 、評估名額

(1)缺失率

缺失率是考量資料覆寫程度的名額。根據業務情況和資料的應用場景,确定資料覆寫程度的需求。

(2)有效性

分析單變量的GINI、KS、IV 值、趨勢。評分類的變量,一般要求ks>20,變量類的資料一般要求ks>10。同時,還有考量資料的可解釋性和趨勢的穩定性。

(3)穩定性

無論是評分類還是變量類的資料源,都需要評估穩定性。穩定性的評估是對比資料在兩個不同時間段的分布情況,一般使用psi 名額,psi>0.1 認為資料有一定程度的偏移,psi>0.25 認為資料偏移很嚴重,需要疊代相關政策或模型。

(4)共線性a

(a)業務了解

很多第三方的資料衍生邏輯都是笛卡爾積周遊所有組合可能,按照次元切片拆分這些變量,初步預估整個資料含有的資訊量。

(b)變b量聚類

進行變量聚c類,觀察聚類數以及每一類所含資訊次元。

(c)相關性分d析

可以進行相關性分析,分析資料的相關程度。

(d)VIF檢驗

一般樣本集在10w以上VIF大于10就有嚴重的共線性問題了,樣本集在10w以下,VIF>4也是嚴重的共線性問題。在小樣本時,一般保證在2以下。

(e)投入産出評估

在整個評估環節中,最重要的環節,就是将資料關聯目前政策,評估這個接口的投入産出,因為測試的接口基本上都是付費接口,是以我們要評估,這個接口上線後所産生的收益能否覆寫這個接口的支出。

方法1:

主要考量的是資料上線前後批貸率,逾期率,收益、資料成本等名額的變化。例如:同批貸情況下,逾期能降低多少,利潤相比原來增加多少,增加的利潤能不能覆寫掉支出的資料成本。

方法2:

綜合考量使用者整個借款流程、整個資料周期的利潤情況。

評估公式如下:

(原政策收益-新政策收益)* 資料命中率* 政策應用客群量/月*政策生命長度

收益=回款額-放款額-營運獲客成本-資料成本

二、資料線上測試

雖然資料在曆史樣本上進行了完整的效果評估,已經證明将要上線的資料、模型、政策是有價值的。但市場環境和客群是一個動态變化的過程,況且曆史的資料都是線上下回溯的,線上資料與線下回溯資料是否有差異,是否會有操作失誤,都未可知。模拟線上測試就是要評估資料在真實應用時的效果。

模拟線上測試是将新政策在實際業務環境中運作,記錄相關結果,但并不做決策。分析資料線上上環境的調取成功率。對比線上線下的資料分布、覆寫率、政策設計的通過率是否一緻。

三、A/B test

當資料驗收無誤後,就可以進行A/Btest。A/Btest是将一定比例的流量切換到新的政策中,将現有的規則(冠軍)和新規則(挑戰者)進行比較,這個比例可以随着使用者貸後的真實表現逐漸調整。當确定新政策比原政策的效果好的時候,就可以淘汰原來的政策,流量全部切換到新的政策。

四、資料監控

新的模型/政策上線後,需要有完善的監控體系,監控整個資料的變化情況,友善快速的發現異常。例如:接口的調用情況、資料的穩定性、資料缺失率、各個環節政策的轉化率、貸後逾期情況等。