導讀:大資料風控在網際網路金融領域的應用已相對成熟,現在大多金融服務都已可線上進行,是以各個方面的風險控制更加資訊化。風控系統的建立就是依賴于資料的積累做規則與分析,為風險控制提供更好的技術手段驗證,而風控實驗平台便提供了這樣一個貫穿政策全周期的環境。今天度小滿資深技術專家譚領航會和大家分享度小滿風控實驗平台的架構和實踐。
今天的介紹會圍繞下面四點展開:
- 風控實驗業務背景
- 風控實驗平台架構設計實踐
- 風控實驗平台架構演進挑戰
- 如何設計一個風控實驗
分享嘉賓|譚領航 度小滿 資深技術專家
編輯整理|郭增煌
出品平台|DataFunTalk
01
風控實驗業務背景
風控實驗系統是度小滿在風控政策疊代過程中,業務人員用于驗證政策全流程的平台。
實驗主要分為以下兩塊:
- 當有政策進行新增或變更時,“線下實驗”用于確定政策能夠覆寫相關的測試場景以及相關的政策分支路徑。
- 當政策變更上線後,“小流量實驗”使得政策的疊代可以在小範圍内進行評估來進行效果觀察,避免了政策疊代超乎預期結果且在生産上出現影響範圍擴大的情況。
--
02
風控實驗平台架構設計實踐
風險系統架構目前已經形成了相對成熟、相對穩定的架構體系。目前主要有三層架構:業務層,平台層及資料層。
- 業務層主要将信貸業務抽象成貸前、貸中、貸後三個業務單元。
- 平台層,下分變量及決策子產品,即對資料的加工及使用。變量子產品主要将資料加工成變量及特征,而決策子產品主要将資料的決策作為輸入進入
- 資料層,則是将内外部資料通過加工彙集形成相應的資料主題,以供風控業務人員進行相關的資料分析及模型訓練使用,并存在将部分标準化資料提供至決策平台進行決策支撐使用。
綜上,風控系統是一個支撐信貸業務進行決策的系統。而風控實驗平台則屬于決策子產品中,實驗流程貫穿風控決策完整過程。
--
03
風險實驗平台整體架構
流量自風控系統決策平台流入線上實驗平台,經主政策(風控基準政策)流至各實驗層(不同分支政策),各實驗層中分别進行互相無影響小流量測試來得出線上政策疊代的實驗決策結果。同時,實驗決策結果也會下沉到離線環境。線上下實驗平台中,鏡像流量進行鏡像實驗,曆史資料則進行回放實驗。線上與線下的決策結果均會導入至OLAP平台進行實驗結果分析,進一步評估相應的政策疊代效果,以上即整個風控實驗系統的整體架構。
1. 線上實驗平台
線上實驗即通過決策平台流量直接流入實驗平台,并進行将小部分流量流入相應的政策疊代實驗中,進而擷取相應的決策結果。
而線上實驗應如何去避免不同的政策實驗互相影響?
由于風控決策鍊條較長,鍊條中各個業務子產品均可能存在相應的政策調整,是以在整個線上實驗中,可以将每個實驗層作為一個政策的疊代驗證明驗,倘若實驗層之間的流量自上層流入下層時是随機正交的,擷取的流量成分是一緻的,則可以認為該實驗層的實驗結果與上層是相對獨立的,不受影響的。
2. 線下實驗平台
首先介紹一下實驗樣本,實驗樣本中記錄了線上風控決策的所有輸入變量和輸出結果。輸入變量可以線上下實驗回放測試過程中重新作為樣本進行輸入,而輸出結果則可與實驗的輸出結果進行對比,進而評估線下實驗效果。線下實驗均需要使用到實驗樣本。
線下實驗主要分為三種:鏡像實驗,曆史實驗和構造實驗。
①鏡像實驗
鏡像實驗為線上決策結果産生後,即刻進行樣本采集,推送至實驗平台,實驗平台依據實驗内容,同步開啟多路鏡像實驗。鏡像實驗結果可以實時産生,并可用于與線上決策結果的實時對比分析。适用于觀測政策變更對于線上的影響與預期的符合度。舉個例子,風控政策變更,打算降低風險客戶準入門檻,預期将會有多5%的客戶能達到準入資格,此時則可以通過鏡像實驗來觀測結果是否能符合預期。
②曆史實驗
曆史實驗為線上決策結果産生後,通過篩選已知表現結果的樣本進行實驗,再聯合實驗資料進行實驗結果的分析。舉個例子,當某次線上決策結果,該客戶為貸款通過,但目前表現結果為逾期,則利用該曆史資料來做政策變更後的準入重放,則可以得到實驗結果是否能将該客戶在準入排查時便進行攔截。
③構造實驗
構造實驗為直接根據相關樣本資料構造相應的規則進行實驗,主要适用于真實發生的樣本資料無法覆寫某些特定場景,則可以自己構造相關的實驗來驗證規則的有效性。
3. 實驗結果分析
①小流量實驗結果分析
小流量實驗是處于線上環境的實驗,是直接對線上産生效果的,是以相關的分析方法也與線上使用的分析方法一緻,舉個例子,如圖vintage分析,分析政策在不同授信時間變更後,準入後的客戶在後續時間節點的逾期率表現;假設在某個時間節點做了政策的變更,依據此政策準入後的客戶逾期率降低了,則可以說明該政策是有效的,而若逾期率升高了,則可以說明政策仍需要進行調整。
此結果分析是典型的OLAP場景,在分析的過程中更需要支援相應的變量過濾篩選,進行進一步的政策影響性分析,比如篩選特定行業,學曆的人群,再分析該政策對應的影響,以便知曉政策調整的方向。
②線下實驗結果實驗分析
線下實驗的分析主要是利用現存已有資料做政策實驗重放之後進行對比生成,而在風控中存在盡可分析基準政策通過,而新政策拒絕的場景。
舉例來說,客戶在基準政策中通過了準入排查,在新政策中會在準入排查中被拒絕,則在此場景可以分析相應的逾期率變化,若逾期率降低了,則可以知曉新政策可以将原本準入後會存在逾期的客戶在準入排查時便拒絕了,進而降低了整體的逾期率。但線下分析無法去衡量基準政策是拒絕,但新政策是通過的實驗結果,因為客戶在基準政策拒絕後,便失去了後續的表現資料,進而無法衡量新政策的實驗結果。
--
04
風險實驗平台架構演進挑戰
①挑戰一
小流量實驗通過實驗結果分析,如何判斷實驗達到了預期效果,而不是樣本正常波動帶來的偏差?随着業務發函,需要同時開展的小流量實驗較多,可供實驗的流量有限,如何盡可能少的使用流量?
引入TEST的方法:
定性:根據符合預期的實驗A、B資料及給定的顯著差異的置信度,計算實驗A、B評估名額是否具有顯著差異。
定量:根據給定的名額預期差異及顯著差異的置信度,計算至少需要多少樣本量的實驗能驗證是否具有顯著差異。
如實驗名額為:使用者授信3月戶均餘額,可接收置信度為0.95。
根據符合預期的實驗A、B資料,計算兩個實驗A、B在使用者授信後3月戶均餘額層面在可接收置信度為0.95時是否具有顯著差異,舉例,兩個實驗各放了100人進入授信實驗中,三個月後,若實驗樣本戶均餘額不存在顯著差異,則代表該次政策疊代無意義。
給定目前大盤戶均餘額10000,預期實驗提升10%餘額,可接收置信度為0.95,該方法可計算至少需要積累多少樣本量,可以判斷實驗是否達成了預期結果,且結果具有顯著差異,進而判斷實驗成功或失敗。
②挑戰二
政策疊代除規則或cutoff值疊代外,變量/特征也會疊代,也屬于政策疊代的一部分。而曆史樣本不包含這類資料,不重新計算會導緻結果不準确,重新線上計算會存在“穿越”(樣本重新計算時,使用了目前的一些變量),如何處理?
在實時決策鍊路中,進行樣本的儲存,使得離線環境做資料重新計算時,能引入在實時鍊路過程中儲存下來的曆史樣本。并在實驗中進行相關的變量取值或變量替換,來達到變量重新回溯的結果,以供離線分析使用。
在風控架構中,一般都是先有線上處理,再有離線處理,相較于業界标準的批流一體處理,度小滿實作線上線下一體打通是使用技術角度相對簡便,成本較低的方式,即将實時加工鍊路中的公共加工邏輯進行抽象後,在離線鍊路資料加工做進行擴充,以進行變量的回溯。
③挑戰三
實驗平台小流量實驗對風控線上決策性能的影響:小流量實驗打标對風控決策性能的影響。
風控實驗中,一般某使用者被标記為了實驗對象,則該使用者多次操作貸款審批或額度評估等操作,均需要保證一緻性。此時通過後端服務進行分流,存儲使用者所歸屬的實驗,則可以對其持續采用相同的政策,而進行狀态的存儲。但若存在實驗層或實驗較多的情況,則會影響風控決策的性能,會存在有百豪秒級别的開銷。
度小滿中使用了本地分來的方法,通過固定的雜湊演算法并取模來進行分流,可以確定實驗分流的穩定性,但這種方法也存在實驗流量比例僅可調大不可調小的限制
④挑戰四
實驗平台線下實驗樣本數較大,實驗耗時較長。
當實驗樣本數較大,計算繁瑣,決策路徑較長,導緻實驗耗時長時,這便需要利用到離線計算,其是實作方式和變量回溯類似,優點便是實驗計算中不影響線上服務的性能且可以根據相應的實驗進行彈性的資源配置設定。通過将決策内容(政策、規則等)抽象成公共JAR包,在離線環境模拟相應的決策過程,可以通過彈性資源輕松完成數百倍與線上環境的計算。
--
05
如何設計一個風險實驗
實驗訴求:已有信用類資料新增變量A加工,目标替換變量B,預期逾期率降低0.2%,确定有顯著差異後全流量。
整體有如圖5個步驟:
①樣本準備:實驗是已有的信用類資料新增變量,則需要通過變量回溯來進行樣本的構造。
②規則編輯:政策人員編輯相應的規則,例如新增變量A為信用分小于500拒絕,并替換原有規則B。
③線下實驗:配置相應的曆史實驗,并将已經回溯的樣本資料輸入,并通過線下實驗進行驗證,分析線下實驗的結果,确認是否符合預期。其中用到了前述提及的SWAP IN & SWAP OUT方法,通過檢視政策收緊及政策下探之後的逾期率變化與預期的偏離程度。例如原有使用者為通過稽核,但其在原有規則下一段時間後表現逾期,但在新規則下,使用者被拒絕,則此政策的收緊是否正相關逾期率的降低。
④小流量實驗:配置小流量的實驗,利用TTEST方法,設定觀測名額,運作實驗,在樣本數符合一定數量後,進行小流量的實驗結果分析,确認結果是否存在顯著差異。
⑤轉全:若存在顯著差異後,可以确認實驗成功,可進行線上流量轉全。
今天的分享就到這裡,謝謝大家。
|分享嘉賓|
|DataFun新媒體矩陣|
|關于DataFun|
專注于大資料、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章800+,百萬+閱讀,15萬+精準粉絲。