天天看點

零售銀行如何玩轉大資料

零售銀行如何玩轉大資料

本文主要涵蓋以下内容:

為現有顧客提供私人訂制産品

欺詐情況的早期偵測以及欺詐風險的轉移

針對産品取消與客戶流失的預測

atm機和銀行網點中現金配置設定的最優解決方案

昂貴銀行管道使用的最小化

評估債務産品的客戶

我們可以從備用資料庫裡收集有關聯的數組和資料,并使用hadoop進行分析。或者我們可以通過機器學習技術現有資料中隐藏的關聯關系。

普通資料組的介紹

針對所有客戶每月收入和支出的分類分析數組是一直存在的。這類數組是因為客戶銀行賬戶借記、貸記等各種日常操作而産生的。每一筆交易的産生通常都伴随着一個電子号碼,比如電費話費單、商戶類别碼等等。此外,我們還可以通過商戶名稱、描述以及留言來對交易進行區分。

我們可以識别出很多消費類别,比如房産類消費(租金或者按揭)、能源類消費(加油或者電費)、食品及家居類消費、教育類、汽車消費、餐飲、大額項目(購買電視、家具)、稅費、娛樂、信用卡和貸款支付、奢侈品等等。

同樣,收入分類有工資、分紅、退稅交易、社會福利收入、房租收入、銷售等等。通過簡單的回歸分析可以得到針對每個客戶的收入支出情況的整體趨勢,以及每個細分類别的趨勢。

零售銀行如何玩轉大資料

機器學習和預測

我們可以使用各種機器學習算法和模型來做預測。這裡我們介紹兩種算法:監督學習以及非監督學習。

監督學習算法通過分析和驗證曆史資料來得到模型,這個模型可以通過輸入資料之間的聯系得到确定的結果。樣本資料可以随意選取,但是最好提前進行分組處理以得到更準備的結果。通常可以将客戶數組資料按照年齡、收入、地域、教育背影以及儲蓄量進行分類。每一類還會繼續細分,比如年齡可以分成5個20的層級。我們能直接看到每一層級中客戶的數量,進而我們可以從每一層級裡抽取5%的樣本資料來進行分析。這類樣本資料能夠讓我們最直接地看出哪個類别對最後結果的影響最大。比如我們可以很明顯地看出教育背影對投資産品的影響最大。

非監督機器學習算法則會從現有的資料中尋找未知的關聯模型。我們可以通過那些非正常的客戶行為模式中來找到欺詐資訊的蛛絲馬迹。

零售銀行如何玩轉大資料

1産品的私人訂制

銀行可以把錢省下來去做那些昂貴的市場推廣活動來宣傳銀行産品。産品應該最大程度地提供給那些有可能需要并接受它們的人,是以應該針對客戶推薦與其最相關的産品。這些就需要好好研究客戶之前都愛使用哪些産品。

客戶所使用的銀行産品和服務的曆史資料都可以拿來做分析,并生成獨立的模型。我們篩選并驗證出最好的學習算法,然後用它們計算哪些類别和變量能産生最大的效果。

零售銀行如何玩轉大資料

2金融欺詐的早期偵測以及減少欺詐損失

這項内容包括識别身份造假、信用卡欺詐、電信欺詐、洗錢以及對網上銀行和移動銀行的攻擊。不斷出現的新型欺詐手段需要靈活、迅速的檢測算法。過去,銀行隻使用基于統計學和規則的算法去識别可疑行為。這些算法有很大的局限性,因為它們隻能識别已知的欺詐手段,維護成本高,計算中無法覆寫每個使用者的全部曆史資料,并且經常誤報。

我們使用了包含已知欺詐案件的資料集。這些欺詐案件被分為幾類儲存,如盜取身份透支欺詐,信用卡盜竊,消費信貸欺詐,僞造支票償還信用卡,盜竊支票,盜錄磁條複制卡片,使用竊取的客戶憑證或安全裝置攻擊網上銀行,流氓電商運用信用卡詐騙等等。我們使用了利用反向傳播進行訓練的神經網絡和決策樹兩種算法。這些算法對已有資料進行處理,進而識别新型詐騙的出現。

零售銀行如何玩轉大資料

3預測客戶流失和取消服務

銀行對客戶流失和取消服務的預測有很強的時間敏感性,因為在客戶不可挽回地決定取消某項服務或轉投競争對手之前,留給銀行的時間僅有幾天而已。銀行必須及早識别那些有可能流失的客戶并聯系他們,為他們提供其它可選擇的服務或是解決他們的問題。留存能帶來高利潤的活躍客戶的成本比起流失他們之後再吸引回來的成本要低得多。

我們預測時使用的原始資料包括賬戶流動情況,借記卡和信用卡流動情況,crm中記錄的客戶資料,服務訂購資料,服務中心和分支機構的通路交易資料以及登入資訊等。常用的收入和支出資料也被納入其中。

我們還建立關鍵事件的時間序列,諸如登出借記卡,從其它銀行轉入的工資、分紅、租金等收入,客戶主動聯系服務中心或是通路分支機構,登出信用卡等等。

我們還建立了另外一組客戶集,他們符合年齡、收入、存款和地理位置分布等畫像但仍然是銀行的存留客戶。

基于以上,我們建立了有效的模型以預測客戶在不可挽回地轉投競争對手之前的一系列行為。我們已經使用了一些監督學習算法,例如支撐向量機進行二類分類以及利用用反向傳播的神經網絡。在使用主成分分析對輸入資料進行降維後,我們使用非監督學習算法中的k聚類算法和kcm算法來降低輸入資料的次元。

我們在最近的資料中識别出了數百名符合模式的活躍使用者,在他們轉投競争對手之前,相關分行應當及早進行聯絡。

零售銀行如何玩轉大資料

4atm機和銀行網點中現金配置設定的最優解決方案

對于atm機和銀行網點而言,一年之中不同時段的現金需求量是在不斷變化的。這種變化可能由天氣、突發事件、假期及旅遊等各種因素引發。準确預測出atm機和銀行網點的現金需求量非常重要。無論是頻繁地往atm機裡放現金,還是atm機因缺少現金而停止使用,成本都很高。另一方面,我們又不希望出現atm機和網點長期持有備援現金的情況,因為這既不是最優的現金配置設定方法,同時也會加大引發犯罪的可能。

我們會使用多個次元的資料進行分析,包括:atm機的服務日志,atm機和銀行網點的地理位置資訊,每台atm機的提款資料,atm機和銀行網點當地的天氣預報,賽事安排,每個地區的文化活動、重要事件以及節假日安排。此外,信用卡和借記卡的流動情況也是重要的資料源,可以判斷不同地區在每年不同時間的現金需求量。我們使用普通資料組來确定不同地區客戶的工資、社會福利和其它收入的到賬時間。

我們提取并分析了這樣一些資料,包括:所有atm機在一年中每一天取現數量的中位數,所有atm機一天中每小時取現數量的中位數。這一資料集被用來計算天氣、重要事件、星期幾及節假日對某一具體地區的現金需求量的影響。我們還将過去4年間的重要文化、體育及其它事件與其發生的地理坐标資料結合加以處理,計算出了每項事件對其輻射範圍100米以内的atm機的現金需求量的影響。根據影響程度的不同,我們對這些事件進行了分類。這一資料組可以預測以後類似事件的影響。

同時,我們計算了天氣與當地每台atm機現金需求量的相關性,過程中涉及到的天氣相關的參數包括降水量、溫度和風力等。

另外,我們還建立數組分析了不同地區收入(包括工資、社會福利等)到賬日和現金需求量的相關性。

基于以上資料集,我們建立了預測每台atm機和網點一年中任意一天現金需求量的模型。這些模型考慮了曆史天氣預報資料和重要事件安排,也用到了很多進階算法如波爾茲曼機、感覺機和高斯判别分析等。

5昂貴銀行管道使用的最小化

在昂貴的銀行管道比如櫃台服務或光顧支行或電話客服的使用率最小化上我們做出了巨大的投入。

使用率的最小化可以由優化網上銀行或手機銀行應用、幫助頁、幫助軟體以及優化網站界面實作。另一個方法鼓勵正在猶豫的客人轉而使用更便宜的方式是目标更加明确的推廣活動。

可分析資料最主要的來源是來源于網上銀行以及手機銀行應用的網頁記錄。我們曾用過帶銀行賬号的使用記錄,客服中心交易記錄資料組,使用者資訊的crm資料組,或分行交易記錄的資料組。

另一個重要的資料組是客服中心、支行的投訴以及咨詢的來電、郵件、來信。我們将資料以網絡幫助頁的咨詢點的相關興趣點分類。這能幫助找出解釋不清晰、造成誤解的以及不必要咨詢電話的幫助頁面。這還能幫助管理網上銀行那些複雜的造成投訴的操作。它發現了許多領域比如關于幫助頁面沒有涵蓋的信用卡支付匯率,這反而常常在電話或分行咨詢中常常被提到。網上銀行的産品據此修改,提供自助咨詢、搜尋優化、網上銀行管理、以及手機銀行應用等服務,以減少客服中心以及分行的使用率。

我們分析了以轉化客戶到網上銀行、手機銀行以及自助櫃員機的市場營銷活動的結果資料。根據相關性分析,許多大範圍的營銷活動并不十分有效。我們也分析了最近将大部分業務轉移到網上的銀行客戶的規律。這幫助我們找出更有可能轉移到網上的客戶。對這些客戶我們應該使用更有針對性的個性化的營銷政策,根據各個分行的特點進行活動。

零售銀行如何玩轉大資料

6評估債務産品的客戶

為了可靠地評估風險,對現有客戶準許借記産品,不僅需要考慮現有的信用狀況、可支配收入狀況,還需要客戶的全部曆史和社交記錄。這樣以減少銀行承擔的風險并增加來自有價值客戶的收入。

我們使用通用收入支出資料庫分析,客戶全部的信用卡、借貸、透支或其他金融産品的交易記錄以及crm資訊。

使用markov chain随機分析評估與客戶行為相關的借貸支付可能。此類模型在盈利性借貸、信用卡以及其他金融産品的曆史資料中得到驗證。我們注意到信用記錄的可靠性得到增加,并能夠據此為被拒絕的客戶提供替代産品。

零售銀行如何玩轉大資料

原文釋出時間為:2015-07-23

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀