天天看點

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

1. 風控的意義

何為風控?字面含義就是對于風險的控制進而使财務不受到損失。對于任何一家金融機構(包括銀行,小貸,p2p等)來說,風控的重要性超過流量、體驗、品牌這些人們熟悉的名額。風控做得好與壞直接決定了一家公司的生與死,而且其試錯成本是無窮大的,往往一旦發現風控出了問題的時候就已經無法挽回了。截止到2015年底,全國總共3000多家p2p平台裡超過三分之一已經倒閉。這其中除了一部分明顯的自融欺詐外,大多數平台垮掉的原因還是風控不過關。

2. 風控的核心

風險控制需要做什麼?與逾期率的絕對數值相比,對風險的控制能力要重要得多。借款人需要享受合理的額度和借款成本。出借人需要能夠得到合理的風險調整後的收益。達到這樣的目标的核心是對每一筆借款違約機率的準确預測。

借款人:基于借款人的風險評估,優質的借款人能享受更低的借款成本和更高的額度。相對不那麼優質的借款人則需要付出更高但還是合理的成本。最劣質的借款人(甚至是欺詐借款人)則會被直接拒絕。

出借人:由于借款人承擔的利息成本是基于其風險設定的,我們可以在大數上設定為未逾期的借款人所付出的利息減去逾期借款人帶來的本金損失後依舊能夠達到合理的收益水準。

滿足上述原則的過程我們稱為“風險定價”。這可以作為所有金融的first principle。

◆ ◆ ◆

風控的核心是要準确預測每一筆借款違約機率。顯而易見,這需要量化的工具,也就是模型。假設x代表與借款人相關的各類資料,y代表是否違約(1=違約,0=未違約),則我們需要找到一個函數 f,使得f(x)=y。我們先介紹一下x,y,f在國外的情況。以美國為例。

x ,y:在美國,人們一般在上大學的時候就會擁有人生中第一張信用卡。這樣等到後續買房(房貸)買車(車貸)的時候,就已有了不短的信用曆史了。美國有3家征信公司(equifax,experian,transunion)。基本上所有銀行,貸款,金融機構都會上傳信用資料給這3家公司,包括借款,還款,逾期等資料。征信公司會對原始資料做清洗和處理,進而産品化和商業化這些資料。這些提供資料的公司同時也是資料的使用方。 任何公司都可以買到脫敏的具體到個人的信用曆史資料,用作分析和模組化。由于征信公司能夠以處理完的字段形式輸出資料,在美國,x一般是小而精的。小是指一般一個人的征信資料實際大小不大。精是指這類借款、還款、違約的曆史資料,對于風控模組化來說,會是最有用的一塊資料,因為曆史借貸資訊實打實地反映了一個人的信用情況。

f:如果有了非常新鮮的魚,簡單地蒸一下就會非常美味。同樣的道理,由于大多數美國人已經有了足夠的信用曆史資料,通過這些資料來預測一個人未來的違約機率,這裡所用到的模型也不用很複雜。一般情況下,簡單的決策樹和一些回歸類的模型已經能夠解決90%以上的問題。非常有意思的是,類似fico這樣的公司的商業模式就是提供生成f的能力,也就是基于3家征信公司提供的資料,提供一個比較标準化的信用分給銀行和金融機構。

如上所述,美國的征信體系包括了資料提供方(同時也是使用方),資料整理存儲方(3家征信公司),和提供資料分析解決方案的第三方(例如fico)。整套體系經過幾十年的演變進化,已經成為了一個生态。

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

我們所說的“大資料”并非指絕對的樣本量的巨大,而是把正常的信貸征信資料以外的資訊統一稱為“大資料”。目前看來,由于美國的征信生态體系已經比較完善,其它非信貸類資料在風控模組化裡的應用實際上比較有限,在大多數情況下錦上添花多過雪中送炭。例如美國最大的p2p公司lendingclub早年曾經嘗試隻基于facebook的社交資料來決定是否放貸。試了一段時間發現不行後,還是回到了征信資料為主,其它資料為輔的體系。目前lendingclub隻考慮給fico信用分640分以上的借款人放貸。

在美國,相比全面替代基于傳統征信資料的風控模型,大資料能夠起到的作用可能更多的會在某個特定使用者群體上的性能優化。例如,我們發現fico分在580-600分這個區間的使用者的逾期率是15%。這是比較高的風險,大多數銀行和貸款公司是不做這個群體的, 因為需要覆寫這麼高的風險所需要的利率可能高于他們的業務允許範圍了。然而,15%的人違約的反面是85%的人還是會還錢的。 如果能夠通過技術手段利用一些征信資料以外的資料,來提高這個群體裡好人vs老賴的識别度,從平均15%違約率的群體裡把相對比較好的借款人(比如違約率是5%)挑選出來,則這個群體瞬間就可以做了。已經有一些公司看到了這樣的機會,也已經開始利用大資料模組化做這類銀行服務不到的客群了,比如最近比較火的zestfinance。

5. 大資料風控在中國的機遇

最近10年,以個人信用卡為代表的個人貸款業務在中國有了蓬勃的發展。我國的信用卡交易和風控系統在初期大量借鑒了國外的經驗。銀聯的第一代系統是與visa合作完成的。國内很多銀行的風控流程和系統是從國外采購,很多風控高管也是直接從國外銀行引進的。

然而與國外相比,中國最大的差異在于征信體系的不完善。我們的人行征信系統覆寫了8億人,但是可能隻有3億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。是以也不難了解,國内銀行對于大部分非中高端使用者實際上是不願意也沒有能力提供金融服務的。沒有征信資料,那套國外搬過來的基于征信資料的方式方法就不管用了。

聰明的人馬上意識到,相比國外,由于中國的征信體系的不完善,基于大資料的風控的土壤實際上更成熟,更有的做。這一點對于線上獲客的公司來說特别突出。相比傳統銀行和線下業務為主的平台,線上獲客擁有以下優勢:

網際網路可以提供每個借款人的龐大的、碎片化的、種類繁多的資訊。這裡面包括使用者送出的電子化資訊(如身份證、營業執照、房産證、學曆證、工資單、社保,銀行流水等),第三方權威機構的查詢資訊(如公民身份證查詢中心、教育部學曆中心、法院訴訟資訊查詢中心等可查詢資訊),還包括了海量的網際網路碎片資料,如使用者的電商交易資訊、微網誌等社交網絡資料,百度搜尋引擎資料等。說到底,all data is credit data.

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

網際網路的高效性和爆發性使我們能以較低的成本、較短的時間,積累大量的使用者資料,為分析模組化提供足夠的樣本量。

這種大樣本量、多元度、非結構化的資料非常适合各類大資料分析處理和機器學習技術的運用。

伴随着機遇同樣也有挑戰。就像要有美味的菜肴,我們既需要好的材料,也需要好的廚師,目前大資料在風控中運用的挑戰主要還是在資料和人才這兩方面。

資料

記得我們前面所說的,風控的核心就是能夠産生一個f(x),用來量化違約機率。理想情況下,最好f(x)=y。這裡就有一個雞和蛋的問題。沒有足夠的y就做不了分析,是以除了一些很明顯的資訊外,我們是不知道什麼樣的x對于預測y會有幫助,也就是說在沒有足夠樣本之前是很難确定該收集哪些資料的。反過來,如果有y的樣本夠了,但一開始就沒有意識到應該存哪些x,這些樣本的意義也會很有限。這個問題在那些幾乎沒有信貸記錄的白戶客群上尤其嚴重。最終的解決方法隻有不停地做測試,收集x和y,疊代x。相對于資金成本,時間成本更大。例如下圖所示,使用者在網頁上填身份證的耗時實際上與這個人的風險是相關的。很快的人很有可能是直接複制粘貼。而填的很慢的人很有可能是記不住自己的身份證号。這兩種情況下,欺詐的可能性都會高一些。

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

退一步說,就算我們事先知道應該用什麼樣的x,樣本特别是壞樣本的積累也是很難繞過的。了解模組化的同學知道,越是複雜的模型(比如更多的變量),對于壞樣本(y=1)數量的要求也更高。如下圖所示,一般每增加一個模型字段,我們需要相比對地增加至少100個y=1的樣本。

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

人才

除了資料,在機器學習方面的人才缺口也是比較嚴重的。跟傳統征信資料的小而精不同的,大資料裡的很多資訊實際上隻跟違約率有非常弱的,甚至有的時候接近于0的相關性。把這些多而雜的資訊整合起來,做成一道好菜,是需要非常專業的機器學習方面的人才的。

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

過去的10年裡,機器學習領域有了天翻地覆的發展。在機器能夠擊敗超一流圍棋高手的時代,讓機器基于海量的、人工根本來不及消化的資料來評估一個人借錢後是否會還錢,其可行性是很高的!不幸的是,量化信用評估領域在技術上的方式方法還是基本上停留在幾十年前的水準,早已跟不上目前實時化、移動化、内容包羅萬象的資料時代的節奏。非常簡單的表現就是,除了少有的例外,目前在金融特别是風控的資料模組化/資料研發的人才,無論是數量還是品質,都遠遠落後于網際網路行業。可喜的是,業内也已經意識到了人才的匮乏所帶來的瓶頸。随着行業的成熟和資料的積累,會有越來越多的高端資料人才加入這個行業。整個行業在基于大資料量化評估風險的能力也會有一個爆發。

顧鳴

2014年4月加入拍拍貸,目前任職風險副總裁。顧鳴擁有加州理工學院(caltech)的計算與神經網絡博士學位。在資料化風控領域有着紮實的理論基礎和豐富的實戰經驗。

拍拍貸

拍拍貸成立于2007年6月,總部位于上海,是國内首家p2p純信用無擔保網絡借貸平台。整個2015年,拍拍貸新增了超過700萬使用者,成為了國内第一家借款使用者超過1000萬的平台。2015年4月,基于8年累計的行業内最大最長的信貸曆史資料,拍拍貸釋出了業内第一個基于大資料模組化的風控系統—魔鏡。自從上線以來,魔鏡在有效地控制風險的同時,也極大地提高了風控效率。

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

“魔鏡”杯網際網路金融資料應用創新大賽

拍拍貸、七牛雲、網貸之家,合作舉辦的“魔鏡”杯網際網路金融資料應用創新大賽,已于2月25日開賽。拍拍貸将開放部分真實借款使用者資料集(經過嚴格的去隐私化處理),以及提供高達60萬元的現金獎勵。本次大賽的宗旨是吸引更多的機器學習、資料技術、金融創新人才投身到網際網路金融。通過颠覆性的算法,技術和産品,讓更多的人能夠享受到便捷、高效、低成本的金融服務。金融觸手可及,信用改變中國。想了解更多比賽資訊,請通路大賽官方網址:http://mojing.ppdai.com (點選文末閱讀原文即可)

“魔鏡”系統簡介

風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆
風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆
風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆
風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆
風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆
風控中的大資料和機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

原文釋出時間為:2016-03-21`

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀