金融風控領域的工業級大資料應用: 如何跨越AI與業務經驗結合前的鴻溝？

機器學習、深度學習等對金融業務有何幫助？背後究竟又是怎樣去變革提升當下金融體系的？在本月舉辦的複旦科技創新論壇上，creditx氪信創始人兼ceo朱明傑就金融風控領域的工業級大資料應用進行了闡述。

朱明傑表示，當下人工智能和金融的話題有些過熱，我們應該冷靜地看到，将ai技術移植到金融風控場景的道路其實面臨着諸多磨合的困難，新業務的冷啟動、大量非結構化資料加工以及前所未有的上千次元特征融合處理，包括線上的反欺詐識别，這都是橫在ai與業務經驗逐漸結合前的鴻溝。

以下為creditx氪信創始人朱明傑博士的演講速記，在不影響原意的情況下，部分有删節：

新金融業務的冷啟動是什麼？

冷啟動的問題其實主要是指新金融領域缺少樣本，我們知道金融機構積累壞賬樣本的周期是比較長的，另一方面每一個壞賬也都是血淋淋的教訓，壞樣本積累非常珍貴。

ai在這方面的一個解決嘗試是采用網際網路搜尋領域常用的半監督學習方法，通過少量專家人工标記建構訓練資料集，快速建構初始機器學習模型來對信貸主體進行風險和信用評估，後期通過不斷疊代優化模型以達到最優的效果。此外，在大型金融場景中也可以通過domain adaptation的技術，比如我們積累了在不同金融業務領域的經過大資料集訓練好的深度學習網絡，就可以作為相似領域相同問題但隻有小量标記樣本用于模組化時的特征生成器。

新金融業務面臨的海量資料有哪些？

在這一點上，由于新金融業務客群進一步下沉，傳統征信資料缺失非常嚴重，是以為了做到更全面可靠的金融風控，機構往往需要在申請資訊之上補充大量諸如消費、營運商、社交、網際網路行為甚至影像等等，然而這些海量超高維，稀疏，低飽和，多重共線的資料，傳統的風控特征工程往往束手無策。

如果金融機構有大量無标簽的資料和少量有标簽的資料，其實我們已經可以通過深度學習的非監督或有監督算法，學習穩健，泛化能力好且飽含資訊的特征用于分類任務。這裡重點談一下非監督的算法，包括受限玻爾茲曼機，深度置信網絡等，包括目前嘗試的是最先進的一些生成式算法譬如生成式博弈網絡，算法啟發于博弈論，由生成網絡和判别網絡兩個網絡組成，生成網絡生成資料目的是欺騙判别網絡，判别網絡為判别資料的真假而得到獎賞或者懲罰。随着兩個網絡的不斷博弈，生成網絡可以學到很好的特征進而生成足以以假亂真的資料。

新金融風控正面臨次元災難

我們知道國内外目前成熟的風控系統很多都是評分卡體系，但基于之前的海量外部資料，其衍生的特征量很多時候都是上千上萬次元的，遠遠超出了評分卡體系所能處理的能力範圍，也就形成了次元災難。那麼對這些千維萬維的特征該怎麼很好地應用到新金融風控呢？

事實上，不同的資料類型，它的最優模型選擇也是不同的，基于這種思想，我們去針對機器學習特征和專家人工特征建構最優的規則模型、機器學習模型、深度學習模型來吸收這些全量特征，就可以很好地化解這一問題。此外，在此之上我們進一步通過模型內建技術進行風險評分的輸出，目前已經在與領先機構的風控場景中取得出人意料的效果提升。辟如在實際大型的消費金融場景中，這種內建模型無論在在穩定性或泛化能力上的表現都優于其他已知方法，最大ks值上也比傳統邏輯回歸提升近70%，從0.19能夠達到0.32甚至更高。

新金融業務頻頻被瞬息萬變的網際網路群體欺詐攻擊

最後，談一下金融反欺詐。之前關心網際網路金融的朋友應該都知道，現在網上薅羊毛的現象很嚴重，尤其是新上線的網際網路金融業務，常常是第一個月就被網上羊毛黨群體輪番攻擊，這其實也就是線上反欺詐的問題，由于這些羊毛黨都有專業的申請資訊填寫、個人資料僞造的經驗，傳統基于規則的風控很多時候根本無法識别。

基于大規模圖學習的反欺詐網絡很好地解決了這一問題，一方面我們能通過複雜網絡來識别群體欺詐風險，另一方面我們也可以把基于圖的半監督算法應用于預測“好”/ “壞”人的分類模型，即在有少量标簽節點的圖結構中，根據傳播算法，預測無标記節點的标簽類别。

舉個簡單例子，在申請網絡中其實每一個申請人、手機号、裝置、ip位址都可以是一張圖中的結點，而諸如申請人擁有裝置、手機号呼叫手機号等有向聯系都可以是圖中的邊，邊的權重為關聯的緊密程度。在我們建構的圖中，那些有違約與否标記的申請人是原始種子結點，通過使用基于圖的半監督算法，把是否違約的标記傳播給無标簽的申請人，這樣我們就可以在少量有标簽的樣本上建構出極為龐大的風險網絡，并打造形成我們的違約預測模型。以下是在實際場景更為複雜的網絡中，基于圖結構的局部風險特征、欺詐pattern的展示，尤其是基于圖挖掘算法提取的全局風險特征，目前通過fraudpagerank、community detection、socialaffinity等風險名額已經可以實作網絡全局風險的實時識别。

時下，新金融正來到轉型更新的十字路口，一方面ai被寄予極大厚望，另一方面将網際網路級别的ai應用于金融領域也存在很多急需突破的挑戰。相信随着需求驅動技術的快速發展，機器學習将在金融風控的工業級應用中發揮越來越大的價值，但如何真正釋放資料的價值，我想我們的征途才剛剛開始。

creditx氪信是一家機器學習風控解決方案服務商，ceo朱明傑為微軟亞洲研究院博士、德國馬克思普朗克研究所博士後，攜程大資料部門負責人。曾在msra、yahoo labs及ebaysearch science擔任重要職位，擁有豐富的資料挖掘、網際網路搜尋和機器學習的研究開發和産品工作經驗。

原文釋出時間為：2016-12-28

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

金融風控領域的工業級大資料應用: 如何跨越AI與業務經驗結合前的鴻溝？

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希