天天看點

大資料全流程平台在網際網路金融的實作

  本文講的是<b>大資料全流程平台在網際網路金融的實作</b>, 如果有這麼一家公司,它把資料視為它的生命線,那麼它對資料系統一定有非常非常多的需求,它可能會要求它們的資料系統足夠靈活,可以非常友善的加減資料源,它可能需要實時查詢裸資料,也有可能對這個資料進行各種各樣的計算,它還有可能去提高每次通路的實時性,同時也有可能提高批量離線分析時的性能以及水準擴充能力,如果你是一個架構師,你會怎樣設計這套系統呢?

  大家下午好,我是來自宜信的侯松,我今天分享的主題是《大資料全流程平台在網際網路金融場景下的實作和借鑒意義》,在宜信,我所在的組叫姨搜,我們組所成立的目的是幫助整個宜信建立風控相關的各種資料系統,以及提供各種基礎設施和支援,在過去差不多兩年和三年的時間裡,我們其實也踩過很多坑,有各種各樣的經驗,接下來的半小時,我想跟大家分享我們過去的一些經驗以及獲得的一些思考。

大資料全流程平台在網際網路金融的實作

  我的分享主要分為四部分:我們是誰,了解風控,了解使用者,風控系統的架構設計。因為我們所在的是風控系統,我們做出來的系統不是全自動的,無人堅守的,我們有很多的使用者,使用者對我們的系統有什麼樣的需求呢?在對風控和對使用者需求的了解之上,我們應該如何去設計這套系統,才可以保證既能滿足使用者各種差異特别大的需求,又能滿足風控對資料系統差異非常大的要求。

大資料全流程平台在網際網路金融的實作

  宜信已經超過十年了,有着非常穩健的經營曆史,宜信以P2P金融起家,現在已經是特别大的綜合性金融集團了,姨搜組為整個宜信提供了很多風控相關的支援,比如基礎資料服務,模型服務,類似于搜尋引擎和知識圖譜的服務,以及角色引擎等各種各樣的設施,接下來我會簡要的提一下。

大資料全流程平台在網際網路金融的實作

  簡單來說,風控不是非常廣義上的風控,我具體說的風控是個人信貸場景下的風控設施和對風控本身的了解。首先看一下風控産品有哪些組成部分,可能和一般的網際網路産品有一些差別,接下來是基于資料的風控,什麼資料是有用的資料,風控是風險,什麼樣的原因導緻了風險?這些資料以及這些風險是什麼樣的關系?有沒有可能通過資料準确的判斷出風險呢?

大資料全流程平台在網際網路金融的實作

  首先介紹一下信貸産品,上圖所示,越靠上的越靠近産品業務本身,越靠下的越靠近實作以及偏技術的實施,大家能很明顯的看到,處于中間部分的風控政策是整個信貸産品最核心的部分,風控政策的優劣決定了風控産品本身核心資産的品質,風控政策最核心的是預測模型,根據一個人的各種資料來判斷這個人的風險,那這個預測模型是怎麼來的呢?一般會經過大量的資料分析,然後在運作的過程中,這個模型并不是瞎眼在跑,我們會提供各種監控和風險的名額報警,這個模型以及整套系統,都有相關的資料系統提供支援,資料系統最後會對接各種各樣的資料源。

  信貸場景和傳統網際網路企業非常不同的地方在于,我們的自有資料比較有限,但我們會用各種各樣從第三方拿過來的資料來補充我們自身的資料,是以說這個資料會和那種動不動幾千台的大規模資料面臨的難點不同。

大資料全流程平台在網際網路金融的實作

  關于資料的了解,現在的技術越來越多,我們可以獲得和處理的資料量和種類也越來越大。早期我們可能隻關心某一個具體的數字或名額,但現在我們有了非常先進的可以了解自然語言的各種算法包,我們就可以對自然語言的資料進行分析,特别常見的有活體識别,人臉識别等,這就是應用的各種各樣的資料,而資料的收集在信貸場景下可以分為兩種:被動收集和主動收集,比如,如果一個借款人到我們公司來借款,他可能就需要送出各種資料,這個資料本身并不是我們主動追要的,或者通過各種方式擷取的,這就是被動收集,他之後的健康表現也同樣屬于被動資料。主動資料可以分為兩種,第一種是,如果這個人過來借錢,他提供的基礎資料對我們來說并不夠用,我們就會通過各種各樣的方式,通過基礎資料去擴充出其他有意義的資料;第二種比較有意思,有時候為了實驗,我們會有目的的放出一批“高風險”的使用者進來,這批人不一定真的有風險,而隻是被線上模型拒絕的一批人,為什麼要做這樣的實驗呢?如果要上一個新模型,新模型對于實際的人群會有什麼表現呢?如果我們用線上的資料肯定是不對的,是以我們需要這類實驗得來的樣本,這樣我們所得到的後續的判斷才是準确的。同時,大家心裡應該有數,不同的資料有不同的價值,但真正使用時,不見得大家能夠分的清楚,比如,很多人對于社交資料在金融領域的用途非常感興趣,這些資料對金融企業有沒有用呢?誠實的說,是有些用處的。但用處到底多大是和具體場景有關的,另外一點需要考慮的是除了資料本身的價值之外,資料還是有成本的,你從這個資料獲得的價值是不是大于成本呢,這也是一件值得思考的事情。至于如何确定資料的價值,就像主動收集的第二種方式一樣,需要做各種各樣的實驗才能判斷出資料的價值。

大資料全流程平台在網際網路金融的實作

  接下來是個人借款的風險。一般來說,個人借貸風險分為兩種:欺詐風險和信用風險,一般來說欺詐風險更高,欺詐風險分為兩種:一種是第三方欺詐,還有一種是主動賴帳,第三方欺詐可以通過各種方式,比如,通過多要素借權來确定這個人到底是不是本人,通過各種社團分析嘗試找出中介。除了第三方欺詐之外,主動賴帳包括信用風險裡的财務收入、支出管理以及不良嗜好,其實最後都可以歸結到這個人本身的素質,比如,他喜好賭博,他的信用風險就比較明顯了。對于數字社會來說,要找出個人特征或者個人的行為模式,肯定是基于資料風險來判斷的,接下來就看一下資料與風險之間的關系。

大資料全流程平台在網際網路金融的實作

  這裡的風險主要還是信用風險,我們更關注的場景是個人信貸場景,個人信貸場景有些特點,比如,每次的借貸量非常小,但是人數衆多,可以積累出大量非常有用的資料,資料量增多之後,就可以建立統計模型。另外一個特點是,個人信貸對于費用特别敏感,是以必須通過各種方法降低費用,這個産品才能有盈利的可能,降低費用最自然的想法就是用自動化的方式做出大部分判斷,剩下一小部分判斷人為進行,這就用到了統計模型。

  第二點是相關性和因果關系,很多人可能都會在這件事情上犯錯,比如,某位銀行職員發現,額度越大的人違約率越低,那我們是不是就要提高所有人額度呢?這就是沒有搞清楚相關性和因果關系的差別,很多時候我們找不到明确的因果關系,但如果存在非常明顯的相關性,就可以放心使用。

  第三點,如何發揮資料的最大用處。如果是單個資料,我們能找到的價值是有限的,如果把很多資料進行整合,就能發現出更多、更有意思的特性,比如,我們有借款人的通訊錄資料,就能做很多事情。

  第四點,利用我們整合得來的裸資料,進行各種各樣的簡單特征加工、組合特征以及複雜特征加工。

  最後是實際的風控模型,大部分場景應用的風控模型比較簡單,但對特征變量的品質要求很高,可能沒有特别複雜的模型,但效果一樣就可以做到特别好。風控對資料有什麼樣的需求呢?我們所需要的資料種類繁多,還經常需要加資料,如何用這些資料就是對系統要求的一大難點。

大資料全流程平台在網際網路金融的實作

  接下來看一下使用者有什麼樣的需求,我們的使用者可以分為三類:第一類是風控政策人員;第二類是資料科學家;第三類是産品工程師。接下來會大概說一下這三類使用者都會有哪些特性以及需求。

大資料全流程平台在網際網路金融的實作

  一般來說,風控政策人員對金融市場以及産品有非常豐富的經驗,一般會有統計分析的背景,但複雜算法和程式設計能力比較弱,同時一般隻負責單個産品,對其他産品的了解比較有限,會有什麼樣的需求呢?風控政策人員實際是為這個産品的風控品質來負責的,是以需要非常靈活友善地控制風控政策的執行。因為信貸場景下有一個不太成文的規定,風控政策需要和信貸産品的開發、營運人員嚴格分開,是以風控政策人員需要把風控政策包裝成一個别人都看不到的黑箱。第二點需求是,由于信貸産品的曆史分析和報表非常重要,是以需要有執行理事的BI報表和報警機制。第三點是政策分析和回測,因為他們需要一個比較好的場景把他們的一些想法實驗出來,跑了很多輪測試之後,才可能把它放到生産環境下執行。最後一點也是公司發展到一定階段之後會想的事情,就是跨團隊合作。

大資料全流程平台在網際網路金融的實作

  第二類,資料科學家,對于資料挖掘和機器學習有很深的了解,同時對資料會有比較好的感覺,有一定的程式設計能力,但是程式設計能力不如專業的開發人員好,那會有什麼樣的需求呢?需要有非常清晰的資料定義以及資料流程,這樣才能比較好的工作。第二點,需要高性能的計算叢集和基礎設施。第三點,多人協作以及跨團隊的合作能力。最後也是比較有意思的一點,把研究成果輕松便捷的使用到生産環境上,生産環境的負責人是風控政策人員,他們是否信的過資料科學家的研究成果,這是一個問号。

大資料全流程平台在網際網路金融的實作

  最後是産品開發工程師,他們是比較專業的Coder,一般來說排期會比較緊張,需要提高系統的穩定性和性能,需求也比較簡單,就是希望對接工作盡量簡單,需要有完善的文檔和測試環境,監控報警以及有專門的團隊能在他們需要幫助時及時伸出援手。

  以上就是我們的三類使用者,每一類對系統都有一些自己的需求,如何在風控系統中同時滿足這三類使用者差異非常大的需求?同時,又能在了解風控的基礎上,對各種資料的支援以及整個系統的資料流轉做出非常好的反應?

大資料全流程平台在網際網路金融的實作

  接下來分享我們是如何做這種非常複雜的資料系統設計的,首先看一下總體結構,接下來是三個最核心的元件:分别是資料整合部分、政策執行部分以及最後實驗分析的部分。

大資料全流程平台在網際網路金融的實作

  首先是總體結構,總體結構分成三類:最下面的是提供資料的基本能力,包括資料的融合能力以及從各種地方拿取資料的能力,提供實時通路以及高性能離線分析。右上角的是分析平台,它所做的事情,一是資料挖掘工程師可以在上面實作他們的各種想法,二是風控政策人員根據需要制定政策,對政策進行修改,這時他們需要有一個非常好的環境,幫助他們更好地工作,分析平台的輸入就是資料整合部分所提供的離線資料,它的輸出就是決策執行部分實際運作的線上模型。第三部分就是決策執行部分,風險政策人員将得到的風控政策放在此處,它會實時拿取資料整合部分的資料,然後對線上産品進行決策和回報。

  首先看一下資料整合部分,我們在資料整合部分用到了一個非常有意思的概念,如果大家對于搜尋引擎比較熟悉,比如,百度和谷歌,就會經常聽到知識圖譜的概念,在這也借用了知識圖譜的概念,知識圖譜會把各資料原來的資料進行有意義的整合,整合到一起之後,形成一個統一的視圖,這個視圖包含了各種各樣的資料,對我們來說,其實需求是一樣的,我們需要各種地方過來的資料,然後把它整合到同一個系統裡,我們向外提供的各種服務就會更加整潔,為添加新的資料源以及執行各種分析提供了一個非常好的環境。

大資料全流程平台在網際網路金融的實作

  上圖最中間的部分是圖資料庫,它有許多功能,比如,實時通路,離線分析時跑一些分析任務,提供全文檢索,進行各種圖運算。它的輸入有各種資料源通過ETL進來的資料,爬蟲系統進來的資料,合作第三方拿過來的資料。它的輸出可以是一些直接的裸查詢,也可以提供近似自然語言的查詢,我們提供了一個非常有意思的查詢引擎,大家可以把查詢引擎了解成資料庫中的SQL語句。

大資料全流程平台在網際網路金融的實作

  第二部分也是我們比較主要的對外接口部分——決策引擎。兩個虛線之間的是決策引擎的核心元件,虛線左邊開放給開發人員看,他們隻知道有一個API,我們把資訊通過API發進去,然後傳回一個結果。靠右側虛線的是風控政策人員使用的,他們可以對實施的細節進行各種修改,可以看到各種監控名額。

  這些有什麼用呢?從左側進來的是非常簡單的資訊,比方說性别、身份證之類的資訊,通過該資訊去知識圖譜裡嘗試豐富該資料,可以加很多資料進去,這就相當于豐富化。接下來會對該資訊代表的個人做各種各樣的特征變量提取,需要各種特征提取流程。除了特征本身,還可以執行各種模型預算,最簡單的可以是評分卡或者LR模型運算,對于結果以及特征變量可以跑各種規則以及模型去嘗試得出結果,對于執行日志會收集起來進行各種聚合和報表展現。

  接下來是實驗分析部分,剛才提到風控政策人員需要做的事情就是對線上模型的修改和建立新的模型,同時需要有非常好的執行環境,我們這一部分的展現形式是一個網頁頁面,它上面有很多子產品,可以随意拖動,進行各種配制,這個實驗分析平台和決策執行部分其實是緊密相連的,中間部分是對使用者資訊的特征提取以及模型運算,這一部分在實驗分析平台裡是一模一樣的,不需要修改任何東西就可以直接跑,是以說我們從實驗分析平台裡得到的結果,可以完全無改動的直接應用到線上環境,這是特别好的點。

大資料全流程平台在網際網路金融的實作

  下面是詳細介紹,我們把它分為兩個層次,基層是邏輯層,展現給使用者看的,該層首先你要讀資料,之後對資料進行篩選,以及做Sample操作,特征提取,再往後是模型執行部分,可以設定模型,對模型進行預跑,對得出的結果進行可視化,使用者如果對可視化的結果滿意就可以直接使用,如果不滿意就回去重新調。值得提出的一點是我們的這個流程不是寫死的,這隻是一個最簡單最普通的流程,流程裡面的每個子產品都可以随意疊加,你可以做出非常複雜的結構,這裡的結構嚴格對應着決策引擎中執行的結構,是以線上環境和離線分析環境是一模一樣的。我們的資料存到HDFS的資料源中,現在的執行以Spark為主,之後對執行出來的結果進行可視化展現。

  我們對風控的設計肯定是對風控本身有很多了解,如何實作使用者的需求,每一點都牽扯到我們對系統的設計,以及我們如何用創新的方式實作。

  最後做一個小小的廣告,對于金融或者信貸來說,市場非常大,但目前說實話能做的特别好的公司真的不多,如果大家對于網際網路金融,或者金融行業感興趣的話,可以來找我們聊一下有沒有合作的方式或者想加入我們,都是歡迎的,有各種各樣OPEN的職位。

作者: 覃裡

來源:IT168

原文标題:大資料全流程平台在網際網路金融的實作

繼續閱讀