天天看點

如何利用大資料做金融風控?| 硬創公開課

如何利用大資料做金融風控?| 硬創公開課

随着金融科技、科技金融等概念的熱起,以及網際網路金融、無金融服務群體的剛性需求下,大資料風控技術也獲得越來越廣泛地重視和應用。但是,如何利用大資料、機器學習等前沿技術做金融風控?如何通過海量資料與欺詐風險進行博弈?本次硬創公開課我們邀請了同盾科技首席風險官董骝煥博士為我們解答。

董骝煥是南開大學機率統計博士,他博士畢業後加入中科院,2007年加入ibm/

ilog從事決策模型在各種業務問題中的應用。2010年至2013年先後在fico和sas支援金融反欺詐事業。2015年5月15日,董骝煥加入同盾科技,負責反欺詐以及資料分析。目前他仍擔任上海财經大學統計管理學院兼職碩導和教育指導委員會成員。

如何利用大資料做金融風控?| 硬創公開課

以下是本次公開課要點:

同盾提倡跨行業聯防聯控,一個次元是打破企業之間的資料孤島,即企業與企業、平台之間的資料交通障礙。另一方面是行業與行業之間也存在一定的風險重合,比如信貸行業與電商行業、o2o行業之間,需要一定的機制來打破資料障礙。

整個風控體系包括幾個環節:

事前:在風險發生之前就要通過對風險輿情的監控發現風險,比如在某些惡意的欺詐團夥即将發動欺詐攻擊前就采取措施來提前防禦,比如通過規則加緊,把模型門檻值調高等方法。

事中:信貸借款申請,線上上注冊激活的過程中,根據自動風險評估,包括申請欺詐,信用風險等來選擇是否拒絕發放貸款。

事後:貸款發放以後的風險監控,如果借款人會出現與其他平台的新增申請,或者長距離的位置轉移,或者手機号停機等信号,可作為貸後風險預警。

如何利用大資料做金融風控?| 硬創公開課

在介紹整個風控體系時我認為,對于網絡行為或者線上借貸,最最基礎或者最最重要的技術是裝置指紋。為什麼呢?從上圖中我們可以看到,網絡上的裝置模拟或攻擊,比如各種各樣的自動機器人,實際上是對網絡環境造成極大的幹擾,在信貸中會導緻信用風險的誤判。這個是第一道。

網絡裝置最關鍵的地方是要實作對裝置唯一性的保證,第二是抗攻擊,抗篡改。網上有各種高手會進行模拟器修改,修改裝置的資訊和幹擾裝置的定位等以各種手段來幹擾裝置的唯一性認定。

是以對抗這樣的情況的技術要點在于:抗攻擊、抗幹擾、抗篡改。另一方面能夠識别出絕大部分的模拟器。

接下來就是裝置定位。

值得注意的是,在模拟器或者智能裝置系統裡面它可以把gps定位功能關掉。而如果通過将基站的三角計算或者wifi的三角計算定位結合起來,定位的精度較高,且不受gps關閉的影響。

這可以應用在信貸貸後管理,用來監測借款人的大範圍位置偏移。

如何利用大資料做金融風控?| 硬創公開課

對于位置來講還有一個重要方面是位址的模糊比對。在信用卡或者線下放貸中,位址比對是一個重要的風險稽核因素,但是位址審批過程存在一個問題:平台與平台之間因為輸入格式不同或者輸入錯誤等問題造成難以比對,那就需要模糊算法來進行兩兩比對,以及數個位址之間進行比對,或者在存量庫中搜尋出曆史中的風險或者相關性名單來進行比對。這其中涉及的技術包括模糊比對算法和海量位址的管理和實時比對。

複雜網絡有時候大家稱之為知識圖譜,但這中間有點差別:複雜網絡更偏向于從圖論的角度進行網絡建構後進行實體結構算法分析,知識圖譜更偏重于是在關聯關系的展現。

如何利用大資料做金融風控?| 硬創公開課

網絡分析最重要的一點是具有足夠的資料量,能夠對大部分網絡行為進行監控和掃描,同時形成相應的關聯關系,這不僅是實體與實體之間、事件與事件的關系,并且展現出“小世界(7步之内都是一家人)”、“幂分布”等特征。

如何利用大資料做金融風控?| 硬創公開課

舉個例子:團夥性欺詐嫌疑識别。有一個被拒絕的使用者中,關聯出來了一個失信的身份證和裝置,而且發現其裝置有較多的申請行為,那麼,這個被關聯出來的使用者或将需要嚴格的人工稽核,甚至可以直接拒絕。

通過對借款事件的深入挖掘,我們可以關聯出大量的借款事件。這個需要進行一些算法分團,可以把相關的聯系人都分到一個地方,然後進行關聯成團的團夥性分析,根據圖論上的屬性如團的密集程度和某些路徑的關鍵程度等,比如介數,圖直徑等角度來估計風險。

通過對内部大量資料的抽樣分析,可以看到一些意思的現象:潛在的威脅者,出于惡意目的,他的行為會和正常的使用者有所不同。這裡面有幾個例子可以分享:

如何利用大資料做金融風控?| 硬創公開課

其中一個是裝置與關聯賬戶的數量與欺詐風險的關系。當然這不僅包括了信貸行業的欺詐,還包括賬戶層面的盜取賬戶、作弊、交易等欺詐風險。可以看到,當裝置關聯賬戶量大于3-5個時,其風險系數明顯增高。此外,當關聯數量大于五時,風險率也是明顯偏高。

另外一個是對于多頭負責與不良率的比較:7天内貸款平台數高于5時其風險也是明顯偏高的。雖然這個資料還沒有做進一步的清洗和交叉衍生新的變量,但也可以看出其中的風險相關程度。

如何利用大資料做金融風控?| 硬創公開課

另外是某個特定客群的模組化抽樣分析。例如多次借款申請人如果180天内夜間申請借款的比例——就是有借款行為的同時,如果大于四分之一的借款申請是在夜間的,其風險明顯增加。

資料都是客觀的,取決于資料形成後對業務的分析和解讀。

優秀的決策引擎是怎樣的?

一個優秀的決策引擎包括以下幾點:

靈活可配——不但可以配規則,還可以配規則的字段和權重。業務友好就不用說了。

快速部署——配置好的規則模型可以實時生效,當然如果涉及一般規則修改時,可以做一個灰階部署。

決策流——它可以把不同的規則和模型串到一起,形成一個決策流,實作貸前、貸中、貸後的全流程監控。它要可以實作對資料的按需調用,比如把成本低的資料放到前面,逐漸把成本較高的資料放到後面。因為有些決策在前面成本較低的資料下已經可以形成,就不必調用高成本的資料。

ab測試和冠軍挑戰——對于規則修改、調優時尤其重要。兩套規則跑所有的資料,最終來比較規則的效果。另一種是分流——10%跑新規則,90%跑老規則,随着時間的推移來根據測試結果的有效性。

支援模型的部署——線性回歸、決策樹等簡單模型容易将其變成規則來部署,但支援向量機、深度學習等對模型支援的功能有更高的要求。

那經過以上的手段,我們基本可以具有一個很強的力度來排除信用風險,那麼以下便是信用評估階段。

評分卡分為申請、行為、催收評分卡。申請評分卡用于貸前稽核;行為評分卡作為貸中貸後監控,例如調額,提前預知逾期風險。它可以通過曆史的資料和個人屬性等角度來預測違約的機率。信用評分主要用于信用評分過程中的分段,高分段可以通過,低分段可以直接拒絕。

因為行業不同,客群與業務不同,評分卡的标準也有所不同。對于有曆史表現的客戶,我們可以将雙方的xy變量拿出來,進行一個模型共建,做定制化的評分。

如何利用大資料做金融風控?| 硬創公開課

建構一個評分卡模型,目前傳統的方法是銀行體系中使用的:資料清洗、變量衍生、變量選擇然後進行邏輯回歸這樣一個模組化方式。

那麼機器學習和傳統方法最主要的差別是變量選取過程的不同——如果還是基于傳統的變量選取方法,那通過機器學習訓練出來的模型,其實還是傳統的模型,其模型雖然一個非線性模型,但是其背後展現不出機器學習的優勢。

在目前圍繞大資料、大資料決策為核心的風控技術體系中,整體的資料量達到一定水準,存在的挑戰将會是資料的稀疏化。随着風控業務覆寫的行業越來越多,平台間的資料稀疏問題就越明顯。(雷鋒網(公衆号:雷鋒網)注:“稀疏資料”即矩陣中含零元素特别多,這意味着無益于增加資料資訊量的無用元素很多,對于資料從存儲,處理到模組化都有挑戰。)

此外,其實對于大資料來說,即便具有資料和大資料決策,如果沒有一個很穩定的落地平台也是一個空中樓閣。大資料應用要做到完整,還需要符合以下要求的平台:一是容納量,能夠容納特别多的資料;一個是響應:任何決策都能實時響應;一個是并發,在大量資料并發時也能保持調用。此外,安全性自不待言。

問:深度學習是怎麼用于風險控制的呢?

董骝煥:深度學習本身個架構,是結合非監督學習和監督學習的神經網絡訓練和部署的架構,隻要有目标,有資料就可以衍生特征,就可以做目标訓練,可以當成一般機器學習去用。當然深度學習有些優勢,比如無監督的特征選取方式,另外訓練的過程中雖然計算量比較大,但也是可以接受的。

概括地說你可以認為深度學習是模型的一種。因為深度學習有些特殊的優勢,比如特征選取的自動産生,即無監督方式。 另外,它可以實作稀疏資料結構的特征生成,而且可以通過正則化的方式來控制特征的生成,這對于具有大量資料,同時次元特别多,而且稀疏化的情況時就特别有用。

問:有一個問題,有沒有一種可能,對于使用者畫像,判斷的次元越多,得到的一些結論是沖突的。這個情況如果存在,是怎麼協調,看權重麼?

董骝煥:如果傳統的方法,這些次元,比如幾千個次元經過模型變量的篩選,有些變量是值越高越正面,有些是值越低越正面,就是woe是不同的方向,這種情況下可以通過模組化的方式來進行權重的訓練,來做一個協調。

問:根據最新關于網際網路金融平台法規的實施,從資料平台的角度分析下,大資料是否會取代以後的人工稽核?您對互金風控未來的發展趨勢認為是什麼樣的?

董骝煥:确實取決于不同信貸産品。比如小微的信貸産品,其立足點也許是經營性的評估,甚至包括現場的實際調研——水、電、煤,以及稅務調查。而對于一些小額分散的信貸産品,比如信用卡代償,這些由于量太大金額又很小,人工稽核的話成本會太高。當然還有一些中間層面的,比如幾千到幾萬元的借貸,這種情況目前更多還是互相并存的方式。

至于“未來網際網路稽核取代人工稽核”這個命題,我認為更多取決于線上個人身份認證問題的解決。也就是說,目前線上沒有真正能完全規避僞冒的風險,包括活體認證和手持拍照等措施,尤其是大金額,走線上途徑還是有一定風險的,是以需要從信貸流程的各個次元來控制。

對于未來的風控我認為是往風險經營走,2個方向:一個是個人定制化,讓每個人都有不同的風險識别,以及對應的信貸産品。另外是最優化的授信,實作平台的某個目标的最大化,比如收入最大化、利潤最大化,此外還有市場占有最大化——對于低風險人群的容忍,這當然取決于一個平台的風險偏好,但這個風險偏好最大的基礎是對風險的準确識别,這樣相應的風險優化才是有效的。

本文作者:溫曉桦

繼續閱讀