銀行與互金都在談大資料，相比之下有何不同？

在《大資料在金融業中的應用》釋出之後，便有朋友留言問，“銀行的大資料和互金的大資料應用有沒有什麼不同？”的确，說到金融大資料，我們會發現有兩類機構都在提，當網際網路金融企業都把大資料挂在嘴邊、當大資料風控成為新金融的代表性模式時，被稱作“傳統金融機構”的銀行業也坐不住了，站出來講，銀行業才是典型的大資料企業，銀行内部有大量的資料，既有結構性資料，也有非結構性資料，隻是沒有把這個資料富礦更好地利用罷了。

是以，問題就來了。銀行與互金，所講的大資料是一回事嗎？二者究竟有何差別呢？下面分享我的觀點，未盡事宜，歡迎大家留言讨論。

差異始于自有資料的不同

對于任何一類機構而言，其資料的構成都是自有資料+外部資料，外部資料則包括既公開資料，也包括第三方購買資料和其他管道獲得的資料，如下圖所示。照理來講，外部資料的擷取是可以做到大緻相似的，自有資料便構成了金融機構資料差異化的基礎。

　　先來看看銀行業

本質上，整個銀行業的一切活動和産品都是與資料有關的，甚至說銀行的所有産品都是資料也不為過，比如說你的存款、你的貸款、你的理财産品等，實際上就是在銀行系統内記錄的一組資料而已。正是由于銀行産品和業務的天然資料屬性，是以銀行業在産生資料和應用資料方面一直走在各行各業的前列。據悉，計算機由軍用轉為民用時，率先利用計算機技術來提升行業管理能力和發展能力的就是銀行業。

銀行的自有資料主要是各種業務資料，是對全行客戶業務活動過程和結果的記錄。同時，為了更好地開展業務，還會要求使用者提供諸如電話、職業、教育、住址等資訊，如果有過貸款申請行為，還會包括收入、房産等強信用屬性資料。此外，所有人的工資都是銀行代發，公積金流水也在銀行，房貸和車貸也都在銀行，銀行在業務過程中還産生了大量的文檔、資訊、圖檔、音像等非結構化資料。

換個角度來看，銀行賬戶是經濟社會所有活動的起點和重點，所有人的财富狀況和變動情況都會在銀行留有痕迹，是以要判斷一個人有錢沒錢，找銀行就對了。為何保險産品、基金産品都喜歡交給銀行來銷售，一方面是銀行有着龐大的線下管道，更重要的在于，銀行知道哪些使用者有錢，進而進行更好的産品比對銷售。

本質上講，若能精準地判斷一個人有錢沒錢、有多少錢，無論是進行精準營銷還是風險防控，基本也不太需要太多的其他資料了。但問題在于，銀行業的資料是割裂的，除了信貸類的關鍵資訊會以征信的形式報送央行征信中心，實作一定程度上的共享外，其他的各類财富相關資料，都分别沉澱在各家銀行。

比如張三，在中國銀行有1000塊存款，在建設銀行有20萬塊存款，在工商銀行沒有存款。那麼，在建行看來，這是個有錢人；在中行看來，這是個再普通不過的使用者，在工行看來，這個人的财富狀況無法判斷。

再來看看互金平台

如果是創業型互金平台，其自有資料也主要是各類業務資料，這點與銀行相似，不過資料量要少得多，受單一的業務模式制約，資料次元也很單一，單靠其自有資料，是幾乎談不上什麼大資料應用的。

而幾大互金巨頭就不同了，比如bat，其本身就是網際網路時代的資料黑洞，沉澱了巨量的使用者資料，當其轉型做金融時，之前積累的電商資料、社交資料、行為資料等便成為其可用的自有資料。當然，互金巨頭對使用者财富資料的掌握程度遠遠比不上銀行，不過好在銀行最有價值的金融資料——信貸資料已經在征信中心實作了共享。

金融資料的日月星辰之光

資料的多少或優劣，隻能通過其對業務的促進作用來進行比較，我們以信貸業務為例進行分析。不考慮房産抵押、存款質押、理财質押等抵質押類貸款産品，從純信用類的消費貸款産品來看，排除欺詐風險的因素，大資料風控要解決的是核心問題是：一個人的還款意願、還款能力、還款穩定性等因素。判斷這些因素，這個人的信貸行為資料、曆史借款資料、曆史違約資訊等征信類資訊是最有效的資料，我們可以從fico分的構成進行驗證。

fico（fair isaac company）信用分是由美國個人消費信用評估公司開發出的一種個人信用評級法，其分值在300-850之間，已經得到社會廣泛接受。據一項統計顯示，信用分低于600分，借款人違約的比例是1/8，信用分介于700～800分，違約率為1/123，信用分高于800分，違約率為1/1292。一般認為，fico分高于680分，就屬于信用卓著的使用者了；而若低于620分，則很可能被拒貸，或被要求增加擔保或抵質押。

而fico評分模型主要就是圍繞個人的曆史借貸行為等征信類資訊展開的，包括付款曆史（占比35%左右，包括各類信用/貸款賬戶的還款記錄，公開記錄即支票存款記錄，逾期償還情況等）、未嘗債務（占比約30%，包括仍需償還的信用賬戶總數，信用賬戶餘額，總額度使用率等）、信貸時長（占比約15%，信貸賬戶的賬齡）、新開立信用賬戶（占比10%，包括新開立信用賬戶數，新開裡賬戶賬齡，正在申請的信用賬戶數量，查詢查詢記錄等），正在使用的信貸組合（占比10%左右，包括信用卡賬戶、零售賬戶、分期付款賬戶、抵押貸款賬戶等混合使用情況）。

從效用等級來看，記錄曆史借款資料的征信資料有效性最強，可看作是太陽之光；消費、社交等資料的有效性次之，可看作月亮之光；興趣愛好及其他行為資料的有效性再次之，可看作星辰之光。在評價一個人的信用時，如果這個人有征信資料，那麼基本可以不用再看消費、社交、興趣等等其他資料就可以進行判斷，就像太陽一出，月亮和星辰之光便黯淡無色了。

問題在于，大多數的人都缺乏有效的征信資料，中國13億人口中，有信貸征信記錄的僅有3.5億。對于沒有征信記錄的人，隻能用月亮星辰之光進行信用判斷，雖然效用差一些，但很多情況下也勉強可用，這是網際網路大資料風控模型崛起的内在邏輯。

銀行與互金大資料風控的差别所在

最後再來看二者的差别，我們從客群的角度來對比。

對于具有征信記錄的優質客群，這部分客戶的信貸記錄多來自于銀行體系，意味着銀行不僅掌握其更細次元的借款曆史資料，還掌握了其存款、理财等财富資料，在這部分使用者的大資料信用評判上，銀行是占據先機的，有其獨到的優勢。

對于征信記錄較少或沒有征信記錄的客群，沒有了日光照射，對銀行而言，可能意味着徹底的黑暗，難以判斷使用者的信用情況；而掌握了使用者消費資料、社交資料的網際網路巨頭，掌握了月亮星辰之光，反倒可以大緻看清使用者的輪廓，具備了差異化的優勢。

問題來了，銀行為何不去掌握這些月亮星辰之光呢，因為有價值的行為資料多數都掌握在網際網路巨頭手中，這些巨頭像資料黑洞一樣，資料進得去、出不來，誰也拿不走，而正是這些資料，構成了其在次級使用者信用評級上的核心優勢。

反過來再問，怎麼去對抗這些資料黑洞呢？唯一的出路就是增加太陽光的照射範圍，即推動可以全社會共享的征信體系的發展，屆時，月亮星辰之光的影響也就越來越小了。

最後簡單總結下結論吧。

如果從大資料信用風控的角度看，銀行與互金的主要差别就是因資料源的不同導緻的客群有效性的差異，整體上，銀行的大資料風控模型針對有征信記錄的使用者更為準确；互金巨頭的大資料風控針對缺乏征信記錄的使用者更為有效，當然，因為征信記錄是開放的，是以對于有征信記錄的使用者而言，互金巨頭的模型也可覆寫，隻是與銀行相比缺乏優勢罷了。

如果從大資料欺詐風控的角度看，銀行與互金則各有千秋，因為欺詐風險更多地與業務模式和流程有關，業務模式的不同決定了銀行和互金面臨的欺詐風險很多情況下是不同的，是以缺乏可比性，應該是各有各的特長。

如果從大資料在智能營銷上的應用看，互金巨頭掌握了使用者的消費、社交等行為資料，可以更好地了解使用者的行為偏好，進而可以更好地将金融産品融入場景打包推薦給使用者。相比之下，銀行掌握的更多是使用者有錢沒錢，在智能營銷上其應用範圍就窄得多，在銷售基金和理财産品上精準度比較高，但在場景化金融上就要遜色很多。

如果從大資料在内部管理上的應用看，銀行業已經進行了長達十幾年的探索，在很多方面是要領先的，而絕大多數的網際網路金融企業，在這方面還需要補課。

本文轉自d1net（轉載）

銀行與互金都在談大資料，相比之下有何不同？

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark