近期,美國網際網路金融公司zestfinance受到國内網際網路金融專業人士的熱捧,其基于大資料的信用評估模型也越來越受到關注和效仿。本文結合美國的金融環境,對zestfinance進行簡要介紹,分析大資料征信産生的背景,剖析大資料征信技術,并全面客觀地闡述了大資料征信技術對于中國網際網路金融和征信業未來發展的借鑒意義。
zestfinance簡介
zestfinance,原名zestcash,是美國一家新興的網際網路金融公司,2009年9月成立于洛杉矶,由網際網路巨頭谷歌(google)的前資訊總監道格拉斯·梅瑞爾(douglas merrill)和金融機構capital one的信貸部進階主管肖恩·蔔德(shawn budde)(曾管理過收益超過10億美元的次級信貸業務)聯合創辦。zestfinance的研發團隊主要由數學家和計算機科學家組成,前期的業務主要通過zestcash平台提供放貸服務,後來專注于提供信用評估服務,旨在利用大資料技術重塑審貸過程,為難以獲得傳統金融服務(underbanked)的個人創造可用的信用,降低他們的借貸成本。
zestfinance起初是為傳統的發薪日貸款(payday loans) 提供線上替代的産品。發薪日貸款因借款人承諾在發薪日還款而得名。由于美國傳統的信用風險評估體系無法覆寫全部的人群,大約15%的人因沒有信用評分而被銀行排斥在外,無法獲得基本的信貸需求。除了解決傳統信用評估體系無法解決的無信用評分借貸問題,zestfinance還主要面向傳統信用評估解決不好的領域,将信用分數低而借貸成本高的人群視為服務對象,利用大資料技術降低他們的信貸成本。與傳統信貸管理業務比較,zestfinance的處理效率提高了将近90%,風險控制方面,zestfinance的模型相比于傳統信用評估模型性能提高了40%。
zestfinance目前也正在向信用風險管理的其他領域縱深擴充,2014年2月zestfinance宣布推出基于大資料分析的收債評分(collection score),旨在為汽車金融、學生貸款、醫療貸款提供一種新的評分系統。zestfinance的未來發展方向是希望把其在這種發款日的貸款上的優勢繼續拓展到其他貸款領域,包括信用卡、汽車的貸款,甚至包括房屋的貸款,在未來的10~15年,這一方法将取代現行名額,成為申請信貸的唯一評估标準。
zestfinance引起國内的關注始于2013年7月,當時全球第三方支付平台paypal聯合創始人、美國知名投資人彼得·泰爾(peter thiel)領投了zestfinance的2000萬美元融資。
為什麼要進行大資料評估傳統的信用評估服務無法覆寫全體人群,特别是弱勢群體
圖1展示了美國fico評分與其對應的人口分布情況,初始每個人的分值基數為850分,信用評分模型利用征信資料從多個評分因素考察消費者的信用風險,從850分中減分。大緻來看,美國個人消費者信用評分人群分布狀況呈現兩頭小中間大的形态,信用分數處于750~850的人群有40%之多,其中信用分數在800~850大約占總人數的13%,在750~799超過總人數的25%,這是整個信用社會的中間階層,對應于美國的中産階級。其中,美國個人消費者的平均fico評分為678。從圖1可以看出,還有大量的人群遠低于平均的678分,如fico評分在550~549的占8%,在500~549的占5%,小于499分的占2%。根據fico的标準,如果人們未能如期還款,或者缺乏借貸經曆,他們就會自動被視為風險人士,他們的貸款也就會被懲罰性地給以更高的利率。還有一種可能,那就是他們的貸款申請會被拒,無論是否事出有因。比如,遇到了醫療緊急事故,或者最近剛剛移民美國。表1根據fico評分将服務人群分為四個區間,并對應不同的金融服務機構。信用記錄不完整或者不夠完善的個人消費者,依據傳統信用評估體系(fico評分),往往很難被傳統金融服務機構所覆寫,即使在金融體系發達的美國也無法獲得正常的金融服務,或者需要付出很大的代價才能獲得正常的金融服務。
傳統信用評估模型資訊次元比較單一
傳統的fico評分模型的基本思想是比較借款人信用曆史資料與資料庫中的全體借款人的信用習慣,檢查借款人的發展趨勢跟經常違約、随意透支,甚至申請破産等各種陷入财務困境的借款人的發展趨勢是否相似。如圖2所示,它主要從五個方面考察使用者的信貸資質。但随着信貸業務的進一步開展,fico信用評分由于單一的标準、嚴苛的門檻和片面的評估結果而飽受诟病。
傳統的信用評估模型雖然在進行信用風險管理過程中發揮了很大的作用,如曾經促進了美國房貸市場的飛速發展。但在大資料背景下個人消費者出現許多資訊次元,如電子商務、社交網絡和搜尋行為等,傳統信用評估模型解決問題的能力越來越受限。
傳統信用評估模型時間上比較滞後
雖然fico評分仍然展現風險排序,但其預測絕對風險的能力和在2008年金融危機中的表現飽受指責,圖3展示,fico分數從2005年到2011年在美國人口中的分布基本上沒有大的變化,這和2008年金融危機爆發之後出現大量壞賬的現實嚴重不符。
由于傳統的基于fico評分的信用評估模型覆寫人群窄、資訊次元單一、時間上滞後,是以,在大資料時代,需要探索信用評估的新思路。國外三大征信機構和fico公司都已經開始了如何利用大資料技術來完善傳統信用評估體系的前瞻性研究,如益百利(experian)投入研究團隊關注社交網絡資料對信用評分的影響,fico公司多年前就開始了線上評估的資訊工具和基于網際網路的信用評估系統的項目研究。
zestfinance大資料信用評估的實踐
zestfinance的基本理念是認為一切資料都是和信用有關,在能夠擷取的資料中盡可能地挖掘信用資訊。zestfinance對大資料技術的應用主要從大資料采集和大資料分析兩個層面為缺乏信用記錄的人挖掘出信用。
大資料采集技術
zestfinance以大資料技術為基礎采集多源資料,一方面繼承了傳統征信體系的決策變量,重視深度挖掘授信對象的信貸曆史。另一方面,将能夠影響使用者信貸水準的其他因素也考慮在内,如社交網絡資訊、使用者申請資訊等,進而實作了深度和廣度的高度融合。
zestfinance的資料來源十分豐富,依賴于結構化資料的同時也導入了大量的非結構化資料。另外,它還包括大量的非傳統資料,如借款人的房租繳納記錄、典當行記錄、網絡資料資訊等,甚至将借款人填寫表格時使用大小寫的習慣、線上送出申請之前是否閱讀文字說明等極邊緣的資訊作為信用評價的考量因素。類似地,非正常資料是客觀世界的傳感器,反映了借款人真實的狀态,是客戶真實的社會網絡的映射。隻有充分考察借款人借款行為背後的線索及線索間的關聯性,才能提供深度、有效的資料分析服務,降低貸款違約率。
如圖4所示,zestfinance的資料來源的多元化展現在:首先,對于zestfinance進行信用評估最重要的資料還是通過購買或者交換來自于第三方的資料,既包含銀行和信用卡資料,也包括法律記錄、搬家次數等非傳統資料。
再次是網絡資料,如ip位址、浏覽器版本甚至電腦的螢幕分辨率,這些資料可以挖掘出使用者的位置資訊、性格和行為特征,有利于評估信貸風險。此外社交網絡資料也是大資料征信的重要資料源。
最後,直接詢問使用者。為了證明自己的還款能力,使用者會有詳細、準确回答的激勵,另外使用者還會送出相關的公共記錄的憑證,如水電氣賬單、手機賬單等。
多元度的征信大資料可以使得zestfinance能夠不完全依賴于傳統的征信體系,對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。
大資料分析模型
圖5展示了zestfinance的信用評估分析原理,融合多源資訊,采用了先進機器學習的預測模型和內建學習的政策,進行大資料挖掘。首先,數千種來源于第三方(如電話賬單和租賃曆史等)和借貸者的原始資料将被輸入系統。其次,尋找資料間的關聯性并對資料進行轉換。再次,在關聯性的基礎上将變量重新整合成較大的測量名額,每一種變量反映借款人的某一方面特點,如詐騙機率、長期和短期内的信用風險和償還能力等。然後将這些較大的變量輸入到不同的資料分析模型中去。最後,将每一個模型輸出的結論按照模型投票的原則,形成最終的信用分數。
其中,zestfinance開發了10個基于機器學習的分析模型,對每位信貸申請人的超過1萬條資料資訊進行分析,并得出超過7萬個可對其行為做出測量的名額,在5秒鐘内就能全部完成。這10個模型以如下的方式進行投票:讓你最聰明的10個朋友坐在一張桌子旁,然後詢問他們對某一件事情的意見。這種機制的決策性能遠遠好于業界的平均水準。
近年來,這種基于大資料的信用風險評估架構(遠不能稱為主流的信用評估方法)被國内外多家網際網路金融機構采用,如德國的kreditech、美國的kabbage,以及國内最近獲得idg公司a首輪4000萬元投資的閃銀(wecash)等,對傳統的信用體系形成了沖擊。
如表2所示,将這種将基于大資料技術的信用評估體系和傳統信用評估(以美國的征信體系為例)相比,發現主要的差別有以下幾個方面。
(1)從服務的人群來說,新的信用評估體系可以服務沒有被傳統征信體系覆寫的人群,即沒有征信記錄的人群(美國的征信體系能夠覆寫85%的人群,覆寫不到15%的人群)。
(2)從資料源來說,這種新的信用風險評估體系大量采用非傳統的信用資料,包括網際網路上的行為資料和關系資料,傳統的信用資料(銀行信貸資料)的比重僅占到了40%,甚至完全不用傳統的信貸信用資料進行風險評估。
(3)從關注的側重點來看,傳統的信用評估模型更關注授信對象的曆史資訊,緻力于深度挖掘。而新的信用評估體系更看重使用者現在的資訊,緻力于橫向拓展。
(4)信用量化評估的方式也發生了改變,新的信用評估體系抛棄了隻用很少變量的fico信用評分模型,基于大資料技術,不僅采用機器學習的模型,而且使用更多變量,一方面可以使信用評估的決策效率提高,另一方面還明顯降低了風險違約率。
對中國網際網路金融和信用評估的啟示
利用大資料技術的信用評估方法在現實中有着很大的市場需求,如國内快速發展的網際網路金融中的風險管理問題。目前網際網路金融處于快速的發展過程中,根據銀監會的統計,目前國内可查的p2p網貸公司已經達到1200家。信用風險評估是p2p網貸的核心問題,存在很多挑戰,如很多信貸客戶沒有或者是缺乏銀行的信貸記錄。在應對風險控制的挑戰時,zestfinance受到了網際網路金融機構的熱捧,目前國内多家網際網路金融機構正在和zestfinance洽談合作,認為這種利用大資料技術的信用評估方法是解決國内網際網路金融和普惠金融的信用風險管理問題的靈丹妙藥。然而對于zestfinance的大資料征信技術,還需要有全面的認識。
(1)zestfinance的大資料征信是完善和更新傳統征信系統的積極嘗試,而不是替代品。美國的金融體系比較健全,而且信用體系也比較健全,這是zestfinance賴以生存的土壤。zestfinance的服務人群定位比較清晰,并且有完善的征信體系做支撐,zestfinance并不是完全擺脫傳統征信體系,在zestfinance進行信用評估時,傳統征信資料要占到至少30%。中國的金融生态環境和美國還是有一定的差别,zestfinance的經驗不能直接照抄照搬,需要進行消化吸收,結合中國的實際情況來進行大資料征信。另外,生活在網際網路時代,面對大資料技術的發展,美國三大征信機構以及fico也已經開始大資料征信方面的研發(作為正常的資料源更新的一種方式),但截至目前,尚未形成獨立的信用評估手段。
(2)zestfinance的體量不大,目前僅為10萬美國人提供了服務,在美國的影響力有限,真實的效果目前還很難總體評價。截至2013年7月,zestfinance的c輪融資達到2億美元。
(3)zestfinance的大資料分析模型也給信用風險管理帶來複雜性的挑戰。傳統的基于fico的信用評估方法,處理的變量比較少,對每一個變量進行細緻地處理,并且可以給出合适的解釋,模型的透明性可以友善地在銀行的不同部門之間進行溝通,而且便于個人消費者對分數的了解。zestfinance的基于大資料的數以千計的變量規模和多模型使得資料的處理和模型的解釋變得比較複雜,在實際應用中會帶來許多麻煩。
(4)大資料的應用要注意個人的隐私保護。zestfinance在利用個人消費者的大資料進行信用評估時,很多資料會涉及個人隐私,如對于個人社交網絡的資料(微信朋友圈)和電商交易的資料、通話記錄、微網誌的資料等應用,美國對個人隐私的保護是有明确的邊界的。而國内關于個人隐私方面的保護目前處于空白,已經出現國内一些網際網路金融公司為了進行信用評估,忽視個人消費者的知情權和隐私保護。是以在利用大資料進行信用評估的時候,要考慮使用個人隐私的合規性前提。
雖然以zestfinance為代表的新興信用評估體系還不夠成熟,但是為征信業的變革注入了活力,特别是對于中國的征信體系的建設會有一定的啟示作用。
(1)普惠金融需要挖掘更多人的信用。國内目前真正發揮作用的征信體系主要是央行的征信系統,所覆寫的人群還是非常有限,遠遠低于美國征信體系對人口的85%的覆寫。目前我國個人有征信記錄的僅有約3.2億人,約占13.5億人口中的23.7%。國内數量龐大沒有被傳統征信體系覆寫的人群同樣也需要信用服務,享受金融普惠,這就需要探索征信的新思路。
(2)網際網路上的海量資訊可以成為征信體系的新資料源。zestfinance的大資料實踐的重要方面就是大量地利用網際網路上的資料作為征信的資料源。中國目前是世界上網際網路人口最大的國家,截至2013年12月,中國網民規模達6.18億人,網際網路普及率為45.8%,其中手機網民規模達5億人,繼續穩定增長。2013年中國網絡購物使用者規模達3.02億人,網絡使用率達到48.9%。截至2013年12月,我國使用網上支付的使用者規模達到2.6億人。這些海量而且豐富的網際網路資料資源可以被國内征信體系建設很好地利用,通過分析網際網路上這些信用主體的基本資訊、交易行為資訊和金融或經濟關系資訊,同樣可以挖掘出這些信用主體的信用模式。
(3)大資料技術可以使得“一切資料皆信用”成為可能。以大資料為代表的it新技術的應用,給征信體系建設帶來了新的思路,原來海量龐雜、看似無用的資料,經過清洗、比對、整合和挖掘,可以轉換成信用資料,而且信用評估的效率和準确性也得到了一定程度的提升。新的信用風險體系的一個颠覆性的基本思想是一切資料皆信用,這是需要大資料技術來支撐的。國内征信體系的建設應當關注大資料技術的應用和發展,并加大投入,勇于實踐。
原文釋出時間為:2014-10-29
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号