天天看點

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

高風險、高收益是金融行業永恒的标簽。也因如此,金融行業非常重視風控。據多位資深金融人士表示,從事風控後,他們總是處于戰戰兢兢的憂慮中。他們上一次大規模的憂慮發生在十幾年前。世紀之交的美國缺乏對于風控意義的認知,明明借着網際網路的東風卻在半途摔了個七零八落。

新科技的出現必然會對原行業産生一定影響。技術無所謂利弊,問題在于人的使用。在風控得到足夠重視,ai成為最熱門科技的現在,諸多從業人士不由得開始思考ai的應用價值,如何将ai與風控相結合并發揮出其積極作用?

本期雷鋒網公開課邀請到氪信資深資料科學家朱敏來分享他的從業經驗,深度講解如何建構基于ai的金融風控系統。

朱敏,氪信資深資料科學家,深耕應用統計和資料挖掘領域。複旦大學生物統計學碩士,曾任職paypal進階分析師,負責核心風險控制資料變量、排序政策、評價名額的設計研發,并在反欺詐政策、行為特征等方面擁有豐富的研究經驗。曾任職ebay資料分析師,負責ab測試與搜尋算法的評估。多年以來專注金融統計和風險評估算法研究,在網際網路級别的機器學習算法和統計理論商業應用領域有着豐富的理論研究和實踐經驗。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

以下是本次公開課實錄,雷鋒網(公衆号:雷鋒網)做了不改變原意的編輯:

今天給大家分享的主題是ai在金融風控領域的工業應用,我主要負責資料和模型,是以今天的公開課除了分享宏觀想法,在具體實踐方面也會比較偏模型和資料。其實這個主題是非常大的topic,是以會聚焦到金融尤其是消費金融領域,闡述我們氪信是怎樣利用網際網路、機器學習和人工智能技術和經驗去解決實際問題的。

首先我想跟大家分享三個數字——40萬億消費信貸、35%征信覆寫以及44zb資料。

有資料顯示,2019年中國的消費信貸市場會達到40萬億,而在2015年這個數字還隻是20萬億,這幾年都保持着很高的增長速度。我們可以看到市場規模很大,并且在不斷變大。 

而征信覆寫率并沒有保持與市場規模的同步。第二個數字是35%,這是指消費金融領域隻有35%的客戶是有征信記錄的,剩下65%沒有信用記錄,是以并不能用傳統、成熟的風險評估方法去評估這些人的風險。

第三個要分享的數字是44zb。對于65%沒有傳統征信資料的這類人,我們可以收集其他相關資料去評估,這相關資料可能是申請資料、網際網路使用記錄、通信記錄等。而由于現在硬體的發展、資料收集的自動化,我們是可以收集到很多資料的,這個資料量也很龐大。大資料一方面是好事,另一方面也是一個難題,例如怎麼運用一些技術手段從大量的資料中提取資訊。而我們覺得消費金融是切入ai商業場景一個很好的契機。

大資料時代金融風控市場規模大,需求旺盛,但要解決的問題很多。

從技術層面上來講,有三個問題。

第一是價值困境,雖然已經意識到了大資料的價值,但不知如何實踐,怎樣從資料中挖掘出有用的資訊。

第二是高維困境,對于65%未被傳統征信覆寫的人群來說,他們的特征次元非常高,往往會産生上千維變量,那麼該如何處理高位特征,如何将其有效融合,形成1+1>2效果?

第三,靈活困境。在人工智能和風險評估不斷發展的同時,我們的敵人的欺詐演變速度也非常快。一旦發現了業務上的一個漏洞,它就會去鑽模型的缺陷,利用缺陷來達到利益最大化。而單一的個體欺詐也正在演變成有組織、有規模的群體欺詐。

從戰略層面來說,以上問題帶來的後果是風控決策低效耗時,員工成本會很高,壞賬率則更高。在金融場景裡,一定需要人工智能、機器學習去幫助解決問題。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

上圖展示了一個理想的基于ai的金融風控系統。從左往右講,我們一開始會去收集各個層面的資料源,這些資料源裡包括交易資料、高價值黑名單,這些都是比較常見的傳統信用資料。此外,我們也會搜集網際網路行為、營運商資料、信貸申請資料等。

不同的資料源融合到一起的時候也會借鑒知識圖譜技術,在知識圖譜之上再去建構高價值金融屬性的特征。

資料融合後有上千次元特征,接着我們會做一個基于深度學習的特征加工工程。再下一步是構模組化型,這裡列出了一些非常主流的機器學習、深度學習模型,像xgboost或者是深度神經網絡,這些模型再加上已經加工出的高價值金融特征,我們覺得這樣就可以解決實際金融風控當中會遇到的問題。

而在解決問題過程中,經驗會被抽象化,是以我們也會把這些經驗轉變成一個産品。上圖列出了幾個風控引擎,包括把剛剛提到的金融特征做成特征引擎、模型引擎、規則引擎,這些産品會幫助我們更好地積累資料,也更好地把已經積累的經驗應用到更多場景中去。

接下來的内容也會按照這個模型來講,首先是資料管理,關鍵字就是金融的知識圖譜。第二部分是基于深度學習的特征工程。最後是內建模型,就是我們怎樣把這些資料特征建構成一個分類模型來幫助我們判斷。

首先看知識圖譜。知識圖譜是谷歌在2012年5月發展出來的可以将搜尋結果進行知識系統化,任何一個關鍵詞都能獲得完整的知識體系。本質是一個語義網絡,是一個基于圖的資料結構。在知識圖譜當中,實體會被表示成一個節點,節點和節點之間會用關系來連接配接,是以這個構造方式和傳統關系型資料網絡是完全不同的。

在金融場景裡,相比于傳統的關系型資料庫,它存在一些優點。

首先,金融知識圖譜可擴充性更強。我們收集到的資料源無論是從結構上還是内容上來說,其實都有很大差别。如何管理這些不同結構和内容的資料源從來就是關系資料庫一個大問題。

但是如果把所有的資料和知識都表示成知識圖譜可以接受的結構,我們就可以把異質異構的資料統一融合在一起。無論是新的資料源變化,還是原有資料源的資料結構發生變動,都可以靈活地調整。這個靈活也是基于知識圖譜的特點,無論是對于節點還是對于關系而言,增加或者更改它的屬性都是非常靈活的。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

從上圖中,我們可以看到在金融風控中用到的資料還是很多的,包括曆史積累資料、實時資料、第三方資料。分類方法當然有很多,但無論是怎麼去看資料格式、結構都會完全不一樣。

如果建構到統一的金融圖譜當中去,對于下遊的特征加工和模型其實會有很大幫助。對于資料庫某一個資料結構的依賴就不是那麼強,我們隻要優化金融知識圖譜的知識結構,工作中的相關問題都可以得到解決。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

金融知識圖譜的第二個優點從上圖中就可以看出來,知識圖譜比較直接。使用者面對的關系型資料庫主要是表。而知識圖譜可以将這些關系建構成圖,更加可視化。 

反欺詐是很重要的一點,在反欺詐中我們經常會做交叉驗證。一個使用者有來自不同資料源的特征,如果它們描述的是同一件事情,那我可以去對它們做一個驗證。如果這個程序中出現了沖突,我們會覺得這個人的風險等級偏高。我們設想了一個場景,在這個場景下單獨個體的資料源比較單一,在這種情況下,交叉驗證是根本沒有辦法發現沖突的。而知識圖譜可以幫助我們。

上圖兩個例子印證了知識圖譜的可視化和表現力。先看左邊,我們要去判斷這幅圖中藍點這個人的風險等級,我們能夠拿到此人相關的資訊有手機号、郵箱等。從這個個體的單一資訊上面來看,其實很難判斷他的風險等級的高低,但是如果我們把他置于一個網絡,比較個體和個體的話,我們會發現一個有意思的地方——他的郵箱和好幾個其他個體的郵箱是相同的,并且這幾個人在我們的判斷中已經是壞人,那麼對于這個申請使用者風險等級也就有了一個判斷。

右邊還有一個判斷使用者風險的例子。如果隻看他的手機号或者郵箱,目前比較成熟的方法是去看郵箱是不是亂碼注冊的或者其他。而把他置于網絡中後,我們會發現他的手機号和很多使用者的手機号都有聯系,并且都是單向的聯系。那這個其實是很明顯的特征——騷擾電話,類似中介或者是廣告騷擾。基于這一點,也可以形成對于這個人的風險等級判斷。

這兩個例子都很好展示了知識圖譜能夠包含更多的資訊量。這個資訊量是可視化的,如果有專家人工去看這些案例的話,會從中找到一些特征來判斷這個人的風險等級高低。而在一些先進算法的作用下,可以自動地從社交網絡中發現一些特征,自動判斷哪些是好人哪些是壞人。

接下來讨論一下特征。資料量大,次元很高是消費金融風控必然會遇到的實際問題。此外,還會遇到很多非結構化資料,例如文本、圖像等。這些都不是傳統征信會遇到的問題,而這在深度學習領域會有一些很成熟的應用。

深度學習的本質是特征學習的過程。對于人工難以加工的海量非結構化資料,基于深度學習的特征生成架構自動生成特征,能夠彌補人工定義特征的局限性。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

首先說文本類資料特征提取架構。 金融風控過程中其實會遇到很多這樣的非結構化資料,比方說申請資料的文本資訊,或者是經過授信和合規要求的通訊文本。對于這些文本的分析,nlp領域其實已經有一些很成熟的技術,比如說cnn。而在金融場景中也能提取一些特征。如果這些特征能進入接下來的分類網絡中去,它也可以去學習到好人或者壞人的特征。

實踐的第一步是文本資料預處理,提取分詞或者是關鍵詞,并将每一個詞做向量化的表示,然後這些向量化表示會進入一個卷積神經網絡,并從這個卷積神經網絡中去提取特征。下一步,這些特征會進入一個全連接配接的神經網絡去學習分類,做成分類器。 

此外,嵌入學習在其中也展現了很大作用。雖然我們用小規模文本庫去學習詞向量來做特征也不是不可以,但是我們發現如果使用業界比較成熟的大規模語料庫,能提升特征提取的性能。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

另一個例子是時序類資料特征提取架構,一句話來說就是,合并學習不同周期和時序模式的循環神經子網絡,有效捕捉時序資料的特征隐含資訊及不同時序模式下的協同影響 。

在實際中我們會遇到一些問題,比如并沒有那麼大的工作量去了解每一塊的資料具體是什麼樣子的,分布是什麼樣的, 特征可以怎麼提取。是以時序類的特征其實可以借鑒深度學習裡的長短時記憶技術來做相同的事情,去做時間序列的分析。它主要考慮就在nlp裡,用在文本比較多,就是說上下文之間是有關系的,根據這樣的關系來建構一個提取特征的網絡,我們把這樣的思路借鑒到了通訊記錄或者是交易記錄當中。

在實際應用中,時序類特征可能是通話記錄或者交易記錄,是以它的特征不隻是在一個階段面上去提取,還在時間軸上去提取。金融場景中,我們把通話記錄分成了不同的周期,按照不同的周期建構了三個lstm子網絡,并且會對這三個時序模式lstm子網絡做一個混合,

這樣能大大減少時序資料分析和提取特征的工作量。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

這裡還要提到一點,雖然剛才一直提深度學習特征,但是專家的特征也很重要。我們會融合機器和專家經驗,實作全量價值提取。因為我們相信專家多年積累下來的成熟的風險評估方法也很有效。基于深度學習的特征智能生成架構,使用不同網絡結構拟合不同的資料類型,自動從龐雜、非結構化的資料中生成高品質的深度學習特征,并且與專家人工特征結合共同融入模型。融合特征才會交給下一步模型去學習。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

前面已經說了資料和特征,現在說內建模型。

內建學習模型的優勢表現在兩點:

不同次元/領域的資料具有不同的特點 ,需要使用不同的模組化方法,內建學習架構可以支援不同類型模型算法作為子模型。內建模型成果已經很多,是以用內建模型會幫助提高模型的性能是毋庸置疑的。

此外,在實際做金融風控的時候,從一個使用者的角度來講,我們能看到很多金融産品,例如分期産品或者消費金融産品,不同産品額度上也會不同,客群不同,獲客管道也不同(線上獲客、地推獲客)。面對不同的業務方式時,我們最終要抓住的壞人也是完全不同的,是以這要求我們建構不同的模型。那麼這是不是要求我們面對不同業務場景都要從零開始去做資料、特征、模組化呢?

并非如此。單獨領域的子模型可以快速遷移應用到新業務領域,實作快速成型和持續優化。

這在實踐中最好的應用就是冷啟動,對于一個新上的業務,所遇的壞人與以往的業務是完全不一樣的,壞人所采取的欺詐手段也是完全不同,但是因為用了內建模型,有些特征、資料、模型經驗都是可以借鑒的,這會有很大的幫助。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

上圖對之前的内容做了一個彙總。資料有結構化、非結構化之分,并根據不同資料的特點進入不同的特征提取架構。和關系比較近的資料,用網絡關聯特征的方法去提取;有些資料是文本、圖像,用卷積神經網絡的方法去提取;時序類的資料,用lstm方法去提取特征

;還有專家人工特征提取架構。

綜合特征提取架構,綜合評估産生三種風險評分:行為風險、社交風險、語義風險。 

社交風險其實主要是從網絡關聯特征體系架構這一塊延伸上來的。

行為風險主要從網際網路的行為、營運商這一塊延伸上來。

語義風險主要從申請資料、通訊文本兩方面來評估。

最後根據這三塊風險做一個內建模型,然後給出違約機率。

內建模型能提高性能,氪信之前将內建模型應用到大型消費金融場景中。他們之前的風控用到的特征也不多,判斷模型的分類性能的

ks值名額也比較一般。在和我們合作後,運用了剛才提到的技術和架構,模型的性能提升還是非常明顯的,ks值從0.19提升到0.35。從業務來看,他們的壞賬率直接下降了46%。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

接下來再說說基于網絡的反欺詐。舉個虛假申請的例子。

某個人通過篡改個人資料,提出貸款的申請,這個可以通過交叉驗證來判斷此人的風險等級。

但是在另一個場景,比如有人申請資料時,用的完全是張三的資料,因為張三的風險評級很安全。這種情況下對于金融這風控機構而言,評估是比較困難的。如果沒有人工介入,這個人的風險評估都是基于張三的資訊來做的。對于這種虛假的申請,若隻根據個體的資料去判斷,難度是相當大的。但是把他放到社交網絡中情況會不同。不同的人共享了相同的屬性或者相同的資料,那麼我們就會有風險的疑慮。

還有群體欺詐。這主要是說在時間或者空間上的高頻率焦點,或是高頻率申請。一個簡單的例子,我們發現申請資料的數量大得超出曆史,然後這些申請資料,比方說手機定位的位置都來自于同一個地區,如果能排除線下獲客的可能,這會是很奇怪的一件事情,存在很高的群體欺詐風險。

氪信資深資料科學家主講:如何建構基于AI的金融風控系統 | 硬創公開課

前面也已經提及了兩個社交網絡中交叉驗證的例子。這裡展示的是網絡反欺詐流程。

首先收集資料,然後建構網絡,基于這樣的特征進行社交網絡分析,建構反欺詐的規則。當然也會把這樣的可視化展示給專家,專家會從可視化的社交網絡中發現一些規則,然後利用這些規則去做早期反欺詐預警,包括把這些規則當作一個特征放到反欺詐模型當中。 

一方面,社交網絡分析可以去做規則、模型,另一方面是它的可視化可以幫助我們融入專家的力量。是以這将構成一個閉環。我們從網絡當中學習到了特征、運用的規則,專家會從規則當中獲得啟發,并提出新的規則,規則回報給網絡,告訴網絡什麼關系是值得懷疑的,這會是一個良性的循環。

我的分享就到這裡,謝謝大家。

雷鋒網公開課視訊實錄

本文作者:伊莉

繼續閱讀