天天看點

如何“謹慎”使用“資料驅動”的風控模型

人工智能時代來臨,今年“資料驅動”在整個信貸生态圈熱度陡增,無論是金融機構、助貸機構、征信機構、大資料廠商等,無不在各大論壇、峰會、沙龍、融資中宣傳各自“資料驅動”的理念。而銀監會的121号文則給大大小小的機構潑了一盆冷水,“謹慎”使用“資料驅動”的風控模型,字字珠玑。筆者認為,監管層的意圖無需過度解讀,但無疑監管層已深刻洞察行業魚龍混雜,充斥着以“資料驅動”為名、實以高利率覆寫高壞賬的玩家。筆者也在與各大信貸機構的風控從業人員、風控解決方案提供商的交流過程中,發現對“資料驅動”理念一知半解的大有人在,更别談“謹慎”使用了。筆者總結認為至少存在以下誤區:

Ø  對接了外部征信資料就認為是“資料驅動”或者是“大資料風控”

Ø  過度依賴大廠或權威資源,例如芝麻分、人行征信等等,缺乏自主風控能力

Ø  算法至上,認為風控模型解決一切,KS值多高、壞賬率控制的多低,雲雲

人工智能的發展離不開資料,作為未來消費金融行業的重要着力點,如何正确搭建“資料驅動”的風控模型,并“謹慎”使用呢?

首先談理念,這裡需要将讨論的範圍從狹義的風控模型擴充到風控體系,限于篇幅,僅介紹小額消費信貸的風控稽核場景,應對欺詐風險及信用風險,不包括操作風險、流動性風險及系統性風險。大額度的消費信貸或小微企業融資,以目前的征信資料條件人工參與風控是必不可少的,此處不再贅述。資料驅動(風控)的關鍵理念包括:

ü  了解你的客戶,不同的客戶群體、消費場景、産品設計所面臨的風險點是不同的,沒有一套風控體系(風控模型)可以包打天下;

ü  資料為先,有用的資料、高品質的資料是成功的關鍵,如同沒有上好的食材,給個米其林三星大廚也沒用;

ü  風控體系搭建非一日之功,資料驅動也非一針見效的靈丹妙藥,需要不斷的疊代、優化,小步快跑,早期建議先進行小範圍、短周期試驗,除非公司不在乎錢;

ü  風控的目的不是杜絕壞賬,而是基于盈利的預期,平衡風險與收益,取得利潤最大化;

ü  緊盯你的資料表現,切勿盲目樂觀,新的風險往往從未知之處悄然而至,如果你的風控體系能越快識别、應對、抵禦這些風險,遭受的損失就會越少。

鋪墊了這麼多,終于可以切入主題了。謹慎使用“資料驅動”的風控體系,需要“資料+ 決策 + 監控”的動态閉環。動态,意味着整個體系需要不斷的演進,通過持續的A/B測試,不斷發現新的規律、新的變量,使風控體系越來越健壯。

資料篇

風控資料包括了基礎資料與衍生資料,基礎資料包括産品采集的使用者基本資訊、裝置指紋、消費場景相關的交易資訊,以及外部征信資料;衍生資料是按照風控決策的需要,對基礎資料加工後的變量。

如何管好資料,用好資料,保證資料品質與高可用性,或者保證資料的準确性不會影響風控的決策,是項極其複雜的系統性工程。資料的重要性,如何強調都不為過。

首先是了解資料,外部征信資料很多,内部資料也很多,衍生變量可以更多,但資料并不是越多越好,過多的無關資料會幹擾決策(在決策篇中會提到)。舉個栗子,裝置指紋資料與反欺詐高度相關,而多頭借貸、失信被執行人等資料則與信用風險更相關,性别、年齡、地域、學曆等則是信用風險的相對弱相關資料,通常組合在一起作為評分卡使用。資料的适用性,除了專家經驗外,也可以通過曆史資料驗證的方式來核實。

其次是動态資料品質管理,需要管理者付出大量精力保證資料的完整性、規範性、一緻性、準确性、唯一性。舉個栗子,營運商通話詳單資料中關于“漫遊”,各地營運商各有“漫遊”、“國内漫遊”、“省内漫遊”、 “異地通話”等不同的定義,甚至還包括空值或異常資料的情況。這就需要設定一個統一的口徑,制定資料轉換規則,并通過程式自動化實作。資料品質管理是個持續完善的過程,曆史遺留問題、引入新的外部征信資料、或原有的外部征信資料更新改版,都需要花費時間去解決。管理者應把握好“二八法則”,優先解決覆寫面廣、重要性高、重複出現的問題。

最後是監控與保障機制。如何監控異常資料的出現,出現了怎麼處理?如何監控資料采集、清洗程式有沒有正常運作?外部征信資料源出現品質波動或突然斷了,能不能自動切換主備線或采取其他的備用機制?當出現任何異常時,如何保障風控決策不出現問題,持續服務?一句話,程式自動化。

決策篇

風控決策的管理并不是簡單的規則引擎或評分卡模型,還應包括模拟驗證、冠軍/挑戰者(A/B測試)、版本管理等舉措,甚至納入人工稽核環節進行全面、體系的管理。

狹義上,風控決策就是一組規則的集合,各個子決策以流程的方式組合而成,子決策包括一系列決策步驟,決策步驟内嵌規則集(可以将評分卡也看作是一套規則集)。每一個産品場景都應獨立對應一套風控決策,某些決策作為通用步驟,可以被不同的産品場景共用或繼承。例如,失信被執行人命中、存在嚴重逾期或銀行卡四要素錯誤作為強規則,不僅适用于電商分期産品,也适用于信用卡代償産品。

決策如何合理編排、高效管理,不妨參考以下原則:

ü  強規則命中直接拒絕,不必執行後續規則(強規則指Catch Rate極高的規則,如存在嚴重逾期曆史、手機使用少于3個月等欺詐嫌疑極高的規則;或者是不符合借款條件,如不滿18歲;強規則早期大部分來源于專家規則,後續随着資料的積累也能總結出新規則);

ü  無成本/低成本規則優先于高成本規則執行,如自有黑名單規則優先于外部調用的黑名單規則;

ü  風控決策能夠獨立于代碼版本,實作熱釋出,決策版本可回溯;

ü  釋出之前,利用曆史資料模拟,分析該決策組合的通過率、捕獲率、潛在ROI,是否優于原來的決策組合;

ü  同樣,曆史資料模拟也可以用來驗證外部征信資料或人工審批的有效性,是否使用,放在哪一步決策使用,如何互相替代。

           再來談談冠軍/挑戰者模式(A/B測試)。盡管曆史資料的模拟表現很優異,并不代表新的決策可以經住實戰的考驗,基于“謹慎”的原則,新決策最好按較低的比例與老決策同步運作。運作一段時間後,如新決策的表現優于老決策,可以逐漸将新決策的線上運作比例調高,直至完全替代老決策。為了提高效率,多個新決策可以同時執行冠軍/挑戰者。

最後稍微談一下評分卡模型。評分卡模型應該是由相對弱相關資料組成,具備高區分度的決策組合。由于評分卡高度依賴客群與産品特征、曆史資料表現,不建議在沒有曆史資料積累的情況下盲目使用評分卡,除非有幸得到了基于相同客群、場景的評分卡,才建議冷啟動。

評分卡模型的核心思路在于分類。拍腦袋也能分類、使用各類資料挖掘或機器學習的算法也能分類,分類的效果如何評判?一是看評分卡模型各個分數段的表現是否符合正态分布,預期壞賬率、通過率能否達到盈利目标;二是通過KS曲線、ROC曲線等方法評價模型。要達到較好的效果,一是特征變量的選擇,盡量保證變量的獨立性與多樣性,避免過拟合,例如近3月通話時長與近1月通話時長同時放進模型就不如換成近1月通話時長與連續6個月通話時長的變異系數;二是樣本的選擇,需要關注是否随機覆寫了盡可能的使用者特征,訓練集與測試集的比例是否合适,換另一批樣本資料會否對模型結果産生較大影響,等等。

監控篇

做好監控是“謹慎”原則至關重要的舉措,需覆寫點、線、面。宏觀上,能做到洞察業務趨勢,預測整體盈利能力,區分不同風控決策的ROI;微觀上,可以發現業務異常、潛在風險或漏洞,總結新的規律。最終目的是為了驅使公司的風控能力不斷強化,幫助管理層做出明智、及時的戰略決策。這裡簡單介紹一些監控的基本思路:

趨勢分析:關注業務量、逾期率(1日、7日、30日、90日等)、通過率、毛利率等名額的短期與長期趨勢,掌控公司潛在盈利能力,評估風控決策的效能,洞悉潛在風險。

漏鬥分析:風控審批的各個組合,每個步驟、甚至每個規則都應該放進漏鬥進行分析、監控,觀察每個決策、步驟、規則的通過率的波動性,以及各決策之間的比較,洞悉可能的問題。

異常監控:這裡的異常監控包括業務異常點與技術異常點。例如,每小時的進件量是否出現巨大波峰或異常波谷,支付成功率是否正常,等等。當發現異常的時候,需要有能力去排查可能存在的團夥欺詐、系統異常等問題。

最後總結一下,做到“謹慎”使用“資料驅動”的風控模型絕非一日之功,需要管好、用好“資料”,謹慎、靈活“決策”,全面、精細“監控”。在此過程中,運用先進的管理工具實作自動化,可以極大提升營運效率,少走不少彎路,成熟的軟體包括統一資料管理平台、資料品質管理工具、資料倉庫、明策智能決策引擎、BI應用等。

繼續閱讀