天天看點

傳統企業互+大資料風控經驗分享

王虎:大家好!首先感謝能夠給我這次機會,能夠介紹我們大資料方面的經驗,其實我們做這個東西,隻是一年不到的時間,也是一個被迫做的,之前我們公司。先簡單介紹一下我們公司吧,我們公司是一個專業的第三方支付公司,2007年成立,注冊是1個億,2012年拿到牌照,2015年是拿到跨境支付的牌照,我們主要是做第三方支付。在三方支付的過程當中,我們遇到了各種各樣的風險,之前我們都是靠手工去做,因為我之前是在做智付店裡面做風控總監,一直是在做風控這一塊,我們在風控當中遇到的一些困難,我們也是無法解決的。

首先一個就是查詢,還有一個是來自一些詐騙、盜刷,包括一些洗錢的東西,我們之前做這些。目前我們專注做風控的人差不多有五六十人這些,之前是全部靠手工,人工到最大,然後訂單很多,然後人去做有很多訂單,這樣做起來就很累,效率也不高,碰到過很多問題。在這個基礎上,我們就慢慢的,就是為了解決我們這個後面就是想搞大資料,最開始是要解決我們産品的問題,如果有一個是商戶過來要查詢他的訂單,我們查起來就很吃力,之前我們用的是origin那種支付,它是一種集中式的存儲,在前幾年,我們的這個訂單比較少的情況下,查起來很友善,origin智付其實在業界也是蠻有名的,用起來也很好。

但是随着我們業務量的增加,尤其是現在我們一天差不多有100萬以上的交易,有100萬的交易。這樣的話,如果有一個商家,或者商戶他會要來查詢他的訂單,那我們背景查起來,那如果你一個人查,一個客服或者是風控人員查還可以,如果兩三個人一起查,基本上資料就停在那裡了,基本上過個三五分鐘或者半個小時才能把結果查出來。你看後來,我們就是想引進大資料這個技術來解決這個問題,因為大資料它就提供了這個分公司的存儲,查詢起來就比人工存儲來說很快。

通過這個查詢問題的解決,我們發現,這個大資料确實是有它的優點,就是像宣傳的那樣,後來我們就把這個就逐漸的應用到了風控當中。在這個基礎上,我們同時解決查詢和風控的問題之後,我們又應用大資料設計了一整套風控系統。我們這個系統,就是它是專門針對三方支付的“一站式”解決方案,我們是通過資料的采集、規則檢查、風險分析,實時檢測出交易環節高頻的、可疑的大額交易,通過分布式流式計算。流式計算是現在比較流行的一種快速的利用反乘的一種方式,比傳統的要快十倍甚至一百倍以上。

第二個就是我們能夠快速的解決異常行為,進而為第三方支付領域的發展提供重要的安全保障,這個就是我們的一個簡單的一個邏輯的一個圖。之前我們就是一個資料系統在這裡,具體的這裡比較複雜就沒有畫出來。現在我們是通過資料的采集,把每一筆支付的訂單采集到我們的系統當中,然後通過我們的規則檢查和風險分析,針對我們後面的這幾個主要的資料庫,黑名單庫、白名單庫、關注名單、裝置指紋以及以往的風險事件,來對一個新的訂單做一個判斷,看一下它是不是一個風險訂單。如果風險訂單,就可以及時的提醒我們的從業人員來做處理。

我們的這個系統?對每一筆訂單它的回報時間是在毫秒級,就是說在一秒鐘以内它就能把資料回報給我們的支付系統,這樣的話使用者體驗起來就比較好。我們的這個東西,它有幾個特點,就是快速、準确和穩定。所謂快速就是提供毫秒級的服務,快速識别風險。我們系統主要采用分布式的思想進行設計,在思想設計的環節,充分采用分布式的流計算,現在這個流計算,如果對風控系統了解的都知道,現在邦盛(音)他們這個流計算做的是最牛的,說是可以在一百毫秒以内拿到結果。我們也就是采用了這種技術,但是可能是沒有他們那麼牛,但是我們也可以在一秒鐘之内,把風控的結果回報給我們。

第二點就是準确,因為我們提供了豐富的風控規則,包括多元度的準确判斷,能不能準确判斷一個訂單它是不是風險訂單,是不是安全,這個其實是風控規則是很重要的。因為我們公司專業從事第三方支付,差不多從拿到牌到現在是五年,是以在實際的工作當中,第三方支付方面我們積累了大量的風控規則的經驗,我們光手工的風控規則,就是各種之前是我們手工拓下來就差不多四十多條。

但是像這些,我們之前是手工去操作這個效率跟不上,有時候雖然發現了這個風控訂單,但是它已經成交了,已經這個資金已經結算到商戶那裡,這樣的話損失就已經造成。但是現在我們把這些風控規則全部用到我們這個大資料系統,比如說一秒之内它就會告訴你這筆訂單,是不是就是說這些規則當中,有沒有運動,運動就會馬上提醒我們,就會及時的去做人工的處理。

還有一個就是穩定,因為我們背景,大資料背景其實是用了就是基于分布式的部署。在這種情況下,就是說隻要不是資金整個當掉或者說整個機房出問題,我們這整個系統是不會有任何的就不會單點故障,這是你是一台機器,甚至是兩台機器同時壞掉它也不會有問題的,這個就是我們解決的單點故障的問題。

我們這個東西特點就是首先展現在一個資料量大的上面,大資料計算它是分布式流式計算,然後産生海量的緩存資料電子對,然後大資料存儲,裝置指紋,交易資料,風控事件,像這些裝置指紋其實是在支付,甚至在那個網際網路金融這一塊是一個非常重要的一個資料。所謂裝置指紋其實就是我們采用一定算法對一台pc,或者一台手機移動裝置去做一個定位,因為從我們以往的經驗當中可以看出,有一些違法犯罪分子比如他拿到了一個盜卡,或者是說詐騙,利用釣魚軟體騙到别人的密碼,或者是做那種洗錢,像這些它不可能是說每一筆交易換一台機器,它就是說有在雖然說它也會準備很多台及其去做人判的使用,但總的來說,它的機器數量是有限的,它很多交易都是在同步的機器去進行,是以裝置隻能對我們這個公共系統來測試是一個非常重要的,可以說是判斷的一個依據。

因為在之前,在我們一台機器上做過類似的違法交易,那他下次來這台機器,或者這個移動終端的,所有的交易或者是所有的行為我們都會把它定義為高風險,作為重點監控。然後交易資料,就是把我們以往這麼多年所有的交易資料作為關聯性分析。風控事件,也就是說對我們之前的一些風控事件,因為之前沒有這個大資料,沒有使用之前,有了風控事件之後去處理完,然後儲存在從業人員的電腦裡,如果有老員工離職了,他處理完了這個風控事件可能新員工都不知道,然後再拿來個類似的,還要重新來梳理一遍。但是我們現在有了這個大資料系統,我們會把所有的這些風控事件我們會錄進去,它就相當于一個微軟伺服器一樣,你輸一個關鍵字進去,它就會把以往的相關的風險事件全部給你找出來,然後就可以去相當于是查詢曆史資料一樣,這樣操作起來就很簡單。

還有一個就是大資料分析,我們知道是動态分析模型,這個東西我們也是用來一個開源的架構上面改,我們主要用的是十八核,我們主要用的是規則引擎,兩個開源軟體。規則引擎我們現在是雙引擎,一個規則引擎、一個分析引擎,是以規則引擎,是靈活配置。我們這規則引擎它主要使的是腳本語言線上修改,所謂腳本語言,它不像java那樣,你要編譯以後才可以運作,這樣實施意義就可以做到很強,如果有一些重要的話直接在現場改,不會影響這個業務的進行。

參數配置我們這邊設計的時候也考慮到,雖然目前專門針對我們自己用,我們當時也有這個想法,就是想如果有同行業的或者有其他的比如說,更多一點發展包括電商,資料用這一塊兒,所有我們就把很多它這個配置都做成這種開設形式,你可以根據你的經驗去調整這些參數。比如說像有一些那種高頻的交易,那這個頻率是多少,你可以根據你公司的情況你自己去設,不用我們的教育訓練人員去改,那你風控人員去根據你自己公司的情況,或者是根據你不同行業的情況都可以自己去改,是以參數配置這一塊比較靈活。

動态釋出也是,因為我們規則這一塊用的是腳本語言,是以随時都可以線上修改。分析引擎,分析引擎也是同樣的,我們這個分析引擎主要也是基于,分析邏輯是基于規則引擎,在規則引擎的基礎上我們還可以去針對我們的曆史順序,去做一個分析,是以規則不會去會曆史資料去做一個學習,去做一個參考,就根據不同的規則來看它是不是合法,是以我們這是雙引擎一起來提高我們這個整個系統判斷的準确性。最後是我們也采用了這種分布式流式計算,這個流式計算它的特點就是高吞吐、低延遲、穩定可靠,我們現在也是可以做到毫秒級,就是在一秒鐘之内就可以判定結果,我們這個目前還算不上一個産品,我們因為隻是針對我們自己的三方支付這一塊,至于後面是不是要再進一步的發展,豐富一下它的功能,可能才能算上一個産品,現在我們隻是集團内部在用。

我們的優勢就是一個它的資料量巨大,主要是存儲量大和計算量,雙引擎保障,我們是規則引擎和分析引擎雙引擎,這樣提高我們風險的命中率。流程自動化,我們在這裡就是把一個工作流的市場把它擠進來了,因為有時候要保證一個,尤其是這個風險事件發生以後,要保證每個風險事件都有人跟蹤,都能夠在規定的時間内完成。如果沒有一個工作流的思想,或者工作流的監督在裡面,如果你這個事件少還可以,事件多,一天如果有幾十個上百個事件的話,可能很多事件就漏掉了。是以我們從實際工作的角度來考慮,我們把這個工作流也列入了這個大資料的平台裡面,如果一旦發現風控事件,隻要點一個滑鼠,就可以申請一個事件單,然後分派到下一個,如果是需要處理或者是需要審批,它會按你之前定義好的一個角色,會直接去公開任務,然後同時會發這個郵件提醒。

還有一個我們的優勢就是我們也采用了一個流式計算,這個就是我們整個這個算是一個風控系統的一個邏輯結構圖,最下邊就是我們對外提供的接口,可以接不同的系統或者說不同的公司,目前這種下邊的這幾個,像這個資料榜這些都是我們集團内部的一些子公司的系統。當我們這個系統如果成熟以後,就是外部的一些類似的平台也可以接進來,接進來之後呢我們提供的是資料查詢、實使攔截的服務,提供這邊的這個接口,是通過我們裝置指紋的采集器,主要是利用我們支付系統大家都可以進一步交易,我們都會采集這個裝置的指紋,而這個裝置的指紋以後它就會直接輸出到我們這個大資料中心。

首先他就會查我們這個大資料指紋庫,看一下我們這個裝置它是不是高風險的。通過這些輸出,輸出這些産品結果。這是這邊一個接口,然後我們實施按揭服務,實施按揭服務其實就是我們利用這個規則引擎,我們這個規則引擎,主要就是實施對進行交易的這個訂單進行分析,如果發現你這個訂單是有風險的,比如你是一個高頻的,或者是說大額的,或者是來自于我們之前的風險事件,根據之前風險事件的判斷它是一個高風險的訂單。那我們就可以首先攔截這筆訂單,然後去做人工核實,畢竟我們這個系統它還不是百分之百的準确,人工核實以後如果确實是高風險或者違法的,我們就會終止這筆訂單。

但是我們的人工核實它是合法的,就會讓這筆訂單繼續進行,因為我們這邊商務支付的每一筆都是跟這個資金有關的,是以在這裡,我們采取的原則是甯可錯殺一千,不能放過一個,隻要我們發現有風險,不管三七二十一,先停下來再說。驗證了沒有風險,我在給你進行下一步,因為有很多這種訂單,我們是有實時結算的,你一旦給他放過這筆訂單了,可能分分鐘,然後這筆錢跟機關結算以後,就再也找不回來了,就是做了這個實時攔截的這麼一個功能。

我們對外提供服務,我們暫時可以考慮兩種模式,一種是雲服務模式,一種是本地化部署,現在對我們集團内部主要是采取這種雲服務的模式,就是我們在我們這個大資料這一塊集中搭建了一個風控系統,然後我們集團内部的支付寶,智彙金聯,包括我們的支付都是通過雲服務的方式來使用這一套系統。這一套系統它其實是可以内部是向隔離的,然後可以單獨使用,但是我們考慮到如果不是我們集團内部的公司對其他的一些,比如其他的三方支付或者小銀行,特别是這個現在流行的市場支付,還有可能不相信我們或者說擔心他的資料安全,那如果是這樣的話,那我們這個東西完全可以把整個系統本地化部署,部署在它的公司内部,然後我們經過一段時間的教育訓練,它就可以使用。

我們目前這個大資料服務系統它的應用場景主要就是針對第三方支付跟電子錢包,是以我們就是專門針對這兩個應用來做的,對三方支付,主要就是交易訂單風險檢測、消費者風險系數檢測,對電子錢包,電子錢包其實就相當于一個支付寶的電子錢包差不多,我們的功能也大概類似于支付寶,沒有它那麼全,我們的功能都是一樣的。我們對錢包的檢測也是消費者風險系數的檢測,比如你電子錢包的轉賬彙款、消費,這些我們都會做一個監控,然後你使用電子錢包的機器指紋,還有你這個登入有沒有異常登入,這些我們都會做一個監控。如果發現有異常登入的,比如你這個錢包之前一直是在深圳用的,突然一下子跑到北京用了,像這種我們就會做一個風險提示,或者是給你發一個驗證碼,看一下你這個是不是被盜用了。

還有一些其它的規則,比如雖然你這個錢包經常會在很多地方用,那你這個段一直在改變,我們就很難判斷你是不是被盜用了,那我們就要判斷根據時間上這麼一個規則來判斷。還有比方說,你十一點鐘在深圳用了這個電子錢包,然後十二點鐘你在北京又用了,像這種情況,也是屬于高風險的,因為一般情況下你一個小時之内你不可能從深圳跑到北京去的,是以這個其實就是我們這個風控規則上面的一個規則,總共我們是有四十多個規則,像這些用于邏輯判斷。

然後我們的産品它主要是用于這些方面:交易管理、商家管理、客服管理、預警管理。對于交易管理,剛才也講了主要是講這個交易管理,就是你在交易管理過程中你這個卡是不是盜刷了,是不是黑卡,或是不是說被釣魚拿到密碼的,或是不是僞造的,是不是洗錢的,這些都是交易管理的應用。然後對于這個商家管理,商家管理這一塊我們做的是對商家的分析管理,動态分析管理,你這個商家你的信譽怎麼樣,然後你的交易有多少投訴,有多少協查,有沒有被公安調證,這些都會作為我們一個動态管理的一個依據。

之前我們這些都是用手工來做的,很滞後,然後經常會組織一幫人去統計,然後系統上實作起來就比較麻煩。但是現在我們放在這個大資料系統裡邊,可以說隻要我們的風控人員收到投訴,然後收到公安調證的,隻要在系統裡邊登記一下,分分鐘後邊的結果就出來了。這樣的話,你這個商家,如果你這個風險值在升高,那就作為我們的一個重點,作為一個重點監控的目标,就是看一下你這個回頭去做一個投訴稽核,看一下你這個商家是不是合法的,是不是就是說有沖突接口這些事情。

還有客服管理,客服管理就剛開始我說到訂單查詢最主要的是客服管理這一塊,因為經常會有商家或者消費者會打電話過來,要求我們幫他查詢某筆訂單,他這個訂單他覺得是可疑,可能不是他自己進行交易的,然後這個時候,因為我們現在公司客服值班的有很多人,沒有這個大資料之前,兩三個人或者三四個人如果都是在查訂單查一個人,如果你查一筆訂單還好,你查一個人的訂單需要把他的所有訂單都查出來,這樣的話基本上我們的這個資料庫就死了。但是現在我們有這個大資料這很簡單,用一分鐘之内就可以查出來了。

預警管理,所謂預警管理,這個可能沒有做三方支付的不是很清楚預警管理是什麼,其實這個預警管理就是主要是這個事中不滿,就是你這裡訂單在交易,但是在你沒有結算,沒有最終清算之前,如果我們發現問題會及時把它停下來,剛才我現場有說到,這個預警管理主要就是針對這個洗錢的比較多一些。你像上個月我們就碰到一個洗錢的,他就是說兩天刷了1.5億,一次一百萬,刷了一百多米,然後像這個我們有這個大資料風控系統呢,你隻要刷單以後,它就可以實時在給你算的,算出來你這個有問題它就報警,然後我們就直接把它攔截下來,如果沒有這個大資料風控系統,它這個靠手工就很難得。那麼這1.5個億很可能就出去了,因為他們做了一些規避,他不是說,就是很密集的刷,他過一個小時刷一下,然後過兩個小時刷一下,這樣的話,如果沒有這個大資料的監控,靠人工去看,有可能你這一筆就放過去了,然後你責任心強一點的話,還有可能說我好像記得這個項目刷過一個一百萬,怎麼又來一個一百萬,你可能會把它攔截下來看一下。如果說你這個從業人員他沒有什麼責任心,就刷了一百萬,或者過了,然後等你這個第二天已經做了清算了,就在你回頭發現這個錢已經追不回來了。這個預警管理在支付行業裡邊還是比較重要的。

這個就是我們這個系統的一個截圖,你們後面可能看不太清楚,有點小,我們這邊有這個,第一個叫上面兩個字就是我說的那個工作流的內建在裡邊,第一個我待辦件跟我的經辦件,待辦件就是說我們大概可以看就是說看一下就是說有哪些風險沒有解決,有哪些風險沒有做都會有提醒,經辦件就是我曾經處理過的,都會給你一一列在這裡。第二個就是裝置指紋,裝置指紋在這裡管理背景是對我們所有收集來的指紋是在這裡可以集中管理的,也可以在這裡手工去查詢。規則引擎,這個規則引擎就是我們可以通過我們參數配置去手工配置你各種的規則,因為你不同的公司,你規格的參數不一樣,你對不同的行業你規則的參數也是不一樣。因為我們這個産品可能是這個系統暫時還稱不上産品,我們想後期對這個電商,網際網路金融去做一下,是以這一塊我們就是打算可以單獨的來配置。

接下來就有黑名單、白名單、風險分析、風險管理,像這些菜單在這裡都是可以進行手工配置的,尤其是像這個黑名單,現在的這個洗錢,反洗錢國家對這些比較重視的,整天在宣傳,金融行業可能會接觸一點,我們差不多一兩周就要到銀行去開一次這是一種反洗錢的會議,它就經常發一些這種叫國際反洗錢聯盟的一些黑名單,包括黑名單賬戶,黑名單國家,尤其是像北韓,什麼以前的伊拉克這種國家,直接就不能跟他們有任何交易。是以我們這要手工的把這些黑名單加進來,加進來以後,我們這個任何交易跟這個相關的都會直接攔截掉,否則的話,都會涉及到反洗錢這一塊,這個就叫恐怖融資反洗錢,這個就很麻煩的事情。一旦被查到,可能一次罰款就上億了,估計一旦查到這個公司就不用做了。

交易管理,這裡就是我們所有的交易的訂單,每筆交易訂單我們這些高風險的它就會列在這裡,值班人員看到以後就會立刻處理,比如你如果有那個高頻了,來自同一個ip的,每分鐘交易一次,然後一小時交易了幾十筆,像這種在我們這個支付行業來看,這個肯定就是有高風險的,一般來說就盜刷的比較多。因為他一旦拿到别人的卡,一定要在短時間之内把裡面的錢刷完,否則的話有可能這個卡就會被銀行登出,是以遇到這種的話,我們就會把它列出來,這樣的話值班人員就會緊急的就處理。

商家管理,剛才也說到就是這些我們會把高風險和一些那種有或者是被列入黑名單的或者高風險的商家都列出來,像這些商家也是我們是重點監督或者是重點監管的對象。這個就是一個簡單的例子,前面的就是,就是最前面就是我們商家的編号,然後這個裡面的數字就沒有顯出來,大概就是會有這幾列關鍵字,這商家的交易量多少,他有多少可疑訂單,他有多少大的訂單,然後他累計交易多少,風控事件有多少,然後我們會把這些一些重點商家都列出來,在這裡都很明顯哪些是需要我們重點關注的。

這個是預警中心,預警中心分為大的訂單、高頻交易主要就是這些,有了以後我們都會把這些列出來,這樣我們的值班人員會實時的去處理,因為我們有二十四小時值班的。

最後說一下我們總體的一個規劃,目前我們隻做了兩塊兒,交易風控跟錢包風控,然後後邊我們先完善我們目前的這個系統以後,我還準備做電商,然後反欺詐,反洗錢,信貸風控,這樣這電商,這個反欺詐的,包括這個p2p,反洗錢的,信貸,因為我們集團都有這些業務在做,是以我們先針對内部先把系統做出來自己用,後邊完善以後也會考慮是不是可以拿出來,給同行們一起來分享。

在風控方面我們也就做了差不多這個大資料方面做了一年吧,有很多還沒有了解到位的地方,希望各位大咖們,有什麼不當的之處指出來。

本文轉自d1net(原創)

繼續閱讀