天天看點

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

時間倒回到 2000 年。

位于紐約的高盛美股交易大廳裡人頭攢動,電話聲此起彼伏,銀行業大客戶的訂單接踵而至,600 名交易員緊張而有序地進行着股票交易。

如今,這裡隻剩下三名股票交易員。高盛 3.3 萬名全職員工中,超過 9 千名員工都是程式員和工程師。

「高盛是一家技術公司」,高盛 CEO 在近幾年的公開場合中反複強調。華爾街的另一家巨頭摩根大通也調整了自己的步伐。

摩根大通很早就設立了技術中心,聘用約 4 萬名技術人員專門研究大資料、機器人和雲基礎設施,去年還引入了全球首創的機器人來進行他們的全球股票算法交易。

我國銀行業協會資料顯示,2017 年行業平均離櫃業務率達到 87.58%。

金融業的智能化更新已經成為不可阻擋的趨勢,因其注重資料和流程的行業特性,金融業在多年的運作中積累了海量資料,成長為人工智能技術天然的掘金池。目前,人工智能技術已經滲透進金融行業的前端、中台和後端,成為金融企業開展高品質資料分析和業務預測的重要手段。

在這個過程中,強大的算力平台、融會貫通的軟體算法系統、有效的執行效力将扮演核心引擎的作用。

英特爾憑借着數十年的資料中心行業客戶服務經驗,通過出色的英特爾至強可擴充處理器及各類專業的解決方案內建平台在挑剔嚴謹的金融市場獲得一席之地,有效地通過人工智能技術持續驅動金融行業發展,相繼推出了金融反欺詐解決方案、信貸逾期風險預測解決方案、金融行業精準營銷政策,并加速 AI 影像分析能力以推動保險行業的智能化更新。

一、金融行業需要什麼樣的 AI?

目前,金融行業在技術更新的支援下加速變革。一方面,新需求層出不窮;另一方面,潛在風險逐漸積累,金融機構需要具備快速應對的能力。

在風險形式上,傳統風險與新型風險也正互相交織。除了層出不窮的傳統金融欺詐手段,例如信用欺詐、盜刷欺詐、惡意套現以及保險業騙保等,伴随網際網路時代出現的個人資訊洩露、釣魚網站、欺詐黑産化等問題,也帶來更高頻化、精準化的的金融欺詐犯罪。

「未來 5 年,風控和反欺詐将成為金融機構赢得市場競争的重要因素之一。同時,這一領域也将催生一個巨大的市場」。有從業者這樣認為。

按目前官方披露的資料推算,金融科技市場規模至少有 4000 億元至 5000 億元。尤其是最近幾年,金融機構紛紛加大投資力度,運用大資料及人工智能相關技術提升資訊管理水準、降低潛在風險,這為金融科技公司大顯身手提供了絕佳舞台。

現在,随着 AI 技術的不斷發展,在金融行業的前端、中台和後端,都已經有了相對成熟的應用方案。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

1)在前端,感覺類技術(計算機視覺、語音識别等)不斷走向成熟,代表性應用已有客服聊天機器人、語音或者面部身份識别等。

2)在中台,AI 可以提高基于資訊的分析決策效率,幫助使用者更加快速地抓住商機。傳統的商業智能和資料分析方法,往往停留在趨勢分析、原因挖掘、資料挖掘與預測層面。而 AI 的引入,既延伸了分析的廣度,也提高了分析的深度。

通過不斷學習和完善,提高建議的相關性和特異性,AI 為風險管理、營銷、服務等提供基于智能化的分析和決策。

3)在後端,比如行業合規以及 IT、财務等支援職能中,存在大量高度重複性的工作,AI 的重要應用之一,正是承擔起這些重複性的人力工作。

二、定制化的金融 AI 軟硬平台

在 AI 推理市場,英特爾至強處理器已經獲得高度認可,占據 80%-90% 的市場。

作為創新之作,第二代至強可擴充處理器更将平台融合以及計算、存儲、記憶體、網絡和安全等功能均提升到了新的高度,提供比前代産品高出 25%-35% 的性能,且具備多項新特性,提升靈活性與安全性,增強記憶體性能,改善總體擁有成本,提升使用者的生産力。

其中,金牌處理器 6200 系列,特别是主流的金牌 6248 處理器、金牌 6240 處理器、金牌 6230 處理器身為英特爾至強可擴充處理器平台的中流砥柱,加強對雙 FMA 通道的支援,FMA 性能提升了 2 倍,能夠适應更複雜、更多樣化的應用場景。

面向深度學習應用,英特爾開源了一款性能增強庫,是英特爾為了幫助開發人員充分利用英特爾架構,推進深度學習的研究和應用而建立的基礎庫。

在該庫中,包含了高度矢量化和線程化的構模組化塊,支援利用 C 和 C++接口實施深度神經網絡, 具備廣泛的深度學習研究、開發和應用生态系統,适用于:Caffe、TensorFlow、PyTorch Apache、Mxnet、BigDL、CNTK、OpenVINO™ 工具包等豐富的深度學習軟體産品。

為了有效提高深度學習模型在英特爾架構基礎設施上的運作速度,英特爾 MKL-DNN 提供了衆多優化的深度學習基元,比如矩陣乘法和卷積子產品、矩陣乘法和卷積、内積等單元,可應用于不同的深度學習架構,以確定通用構模組化塊的高效實施。

為大幅提升了深度學習在 CPU 上的性能,英特爾還和衆多開源社群合作,把英特爾 MKL-DNN 內建進各種深度學習架構。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

如早在 2016 年,經過英特爾 MKL-DNN 優化的 Caffe,采用 E5-2697 v3 處理器,相對于原始的 Caffe 性能獲得 10 倍提高。在最新一代鉑金 9282 處理器上,ResNet-50 上實作了每秒 7736 張圖像的領先性能。

目前,英特爾 MKL-DNN 已成為衆多深度學習架構在 CPU 上的基本配置。

在資料分析層面,英特爾開源了 Analytics Zoo「大資料分析 +AI」平台,将 Spark、TensorFlow、Keras 以及 BigDL 等軟體與架構內建到一個統一的體系,并擴充到大型 Apache Hadoop/Spark 叢集,用于深度學習所需的分布式訓練或預測。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

Analytics Zoo 可在大型英特爾至強可擴充處理器的叢集上運作,它允許使用者直接在既有的大資料基礎設施上開發和運作深度學習應用程式。通過 Plain Old Java Object(POJO)、本地 Java API 或 Scala/ Python 模型加載 API,可無縫內建到 Web 服務中。

針對邊緣側的視覺處理提速,英特爾還特意推出 OpenVINO 工具套件,通過英特爾 AVX-512 以及采用 VNNI 的英特爾深度學習加速技術,在英特爾架構平台上,将計算機視覺相關深度學習性能提升 19 倍以上。

OpenVINO 基于通用 API 接口在 CPU、GPU、FPGA、VPU 等各種硬體裝置上均可運作。借助這一工具套件,開發者無需改變軟體,即可快速完成硬體更新和算法移植。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

三、四大方案落地,針對性攻破

圍繞金融反欺詐、風險預測、客戶營銷、智能核保等多個場景,通過英特爾與中國銀聯、中國人壽上海資料中心、萬事達卡以及中國平安等合作夥伴的經典案例,我們将詳細闡述實戰中的部署和應用。

1、金融反欺詐:三層融合的「三明治」模型

在金融領域建立反欺詐應用模型時,通常面臨缺少足夠的使用者曆史交易資料的難題,且絕大多數資料都源自正常交易行為,10-100 萬份正常資料中僅有 1 份非正常交易資料。

傳統的模型主要依靠不斷建立、更新基于使用者行為特征的規則庫。當交易發生時,系統調用既定的規則引擎來監測該筆交易潛在的風險。但随着業務場景的增多,交易規則複雜度不斷提升,傳統的規則系統風的資源消耗和監控時延的壓力持續增加。

基于 AI 的金融反欺詐模型通過「對規則的自我學習」,能夠實作更為準确和客觀地判斷。

由于僅依靠機器學習對序列化的交易特征學習能力不足,同時單一的深度學習模型對單筆交易内的特征學習能力有限,于是,中國銀聯聯合英特爾提出多層機器學習 + 深度學習模型,大幅提升反欺詐模型的性能。

針對學習曆史交易資料不足的問題,利用模組化過程平台可從少量的原始字段中衍生出了幾百個特征因子,歸納成當筆 / 上筆交易、長短時統計以及可信特征變量等 6 大次元,并通過這些特征工程來幫助模型進行更好的學習。

在「三明治」多層反欺詐偵測模型,英特爾建構「GBDT—>GRU—>RF」三層架構。

首先,針對單一深度學習方法 (例如 RNN) 在單筆交易内特征學習能力上的不足,英特爾建立 Analytics Zoo 工具,在架構的前端引入 GBDT 模型進行特征優化,并将優化後的特征與人工特征相結合,作為 GRU 網絡的輸入,以此來學習序列間的特征,并且将單筆交易内的特征時序化。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

這一過程可以對資料實施有效的過濾,進而為後續的 GRU 模型提供真正有用的資料。

在中間層,架構并沒有直接使用 GRU 網絡的輸出作為直接的欺詐偵測判别,而是将其作為序列間特征學習的一環,将學習得到的序列間特征與原先的交易内特征相結合,形成最終交易特征向量。

最後在此基礎之上,為進一步地将時序特征進行融合學習。在架構的最後,這一架構還疊加了一個頂層的 RF 模型,作為最終的欺詐判别分類器。

通過與發夾量和交易量市場佔有率位于世界第一的中國銀聯實戰合作,英特爾在上百個節點組成的訓練叢集上開展其反欺詐偵測模型的建構,已在僞卡/套現欺詐偵測等場景中進行了實測,并獲得良好效果。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

通過多方位的測評,全新的多層反欺詐模型無論是在召回率,還是在準确率方面都達到預期效果。與其他機器學習、深度學習模型,或者多層模型相比,三明治結構(GBDT->GRU->RF)反欺詐模型的精度-召回曲線最優。随着資料非平衡率的增加,三明治結構反欺詐模型的 F1 值下降最為緩慢。

完成流程化模組化和多層反欺詐偵測模型建構後,銀聯将該套方案進行了封裝和整合并提供 API 接口,業務人員輸入入參後,即可獲得經過智能模型運算分析後的結果名額。以三明治結構的欺詐偵測模型為例,可以為僞卡、套現等欺詐偵測場景提供底層模型支撐,業務人員并不需要深入研究這些複雜的模型,僅調用上層 API 即可。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

在這一創新過程中,英特爾不僅為這一新型的反欺詐模型提供了高性能處理器産品作為動力引擎,針對三明治結構欺詐偵測模型提供了有針對性的優化手段和工具,進而幫助整個反欺詐模型進一步提升了效率。

2、信貸逾期風險:深度學習+機器學習雙劍合璧

目前,商業銀行針對信貸逾期風險預測主要有兩類應用場景,一類是在貸款前就進行的貸前風險評估,其主要關注預測結果的時效性和可解釋性; 另一類是針對貸款發放後的貸後風險預測,其主要關注預測結果的準确率和可解釋性。

純粹的深度學習往往是一個黑箱狀态,缺乏可解釋性,而這正是金融機構所看重的——他們需要可解釋的資訊和條件算出特定的預測結果。這些解釋能夠指導金融客戶改善業務流程、改進客戶體驗。

模型融合可有效提升算法的可解釋性和準确性,不同模型的學習訓練原理不同,所學到的知識也不一樣,将其融合可提升訓練效果。或直接使用不同模型的結果檔案進行融合,或使用一個模型的預測結果作為另一個模型的特征進行訓練,然後得到新的預測結果。

例如,将樹模型 XGBoost 和 LSTM 融合,使預測能力得到進一步增強,同時又保證了模型的可解釋性。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

XGBoost 已經開源,基于英特爾架構優化 TensorFlow 深度學習架構所建構,允許模型與 Scikit-Learn 架構中的其他分類器或回歸器協同使用,通過調用英特爾針對資料分析和機器學習的加速庫,充分利用英特爾架構的硬體資源,加速訓練和推斷過程。

在基于深度學習模型 (LSTM) 和傳統機器學習模型 (XGBoost/RF) 的貸款逾期風險混合預測模型中,首先是特征分析和資料預處理,處理包括缺失資料、資料範圍、資料不平衡性等方面,以及資料重要特征的分析。随着資料集容量的增加和複雜化,該模型還可以使用不同的預處理工具包和新模型來應對各種類型的資料輸入。

第二步,利用深度學習模型和傳統機器學習模型分别對樣本資料進行訓練和推理,并各自得到相關的結果;而後,混合模型會将分别對結果進行權重處理,更新權值并做出預測。

方案的最後一步,是将本輪的預測結果重新導入模型頭部,根據預測效果更新特征值和權值,并進行下一輪的預測。

在軟體棧中,左側底層由英特爾至強 6130 處理器和英特爾以太網融合網絡擴充卡 X710-DA2 建構的硬體基礎設施;其上是 AI 能力層,部署了英特爾 MKL- DNN 或 MKL、面向英特爾架構優化的 TensorFlow1.10 以及 Python 分發包。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

右側,底層是由英特爾至強 5118 處理器和英特爾以太網融合網絡擴充卡 X710-DA2 建構的硬體基礎設施,其上是資料層。在 AI 能力層和資料層之上,部署了貸款逾期風險混合預測應用。

其中英特爾 AVX-512 為 XGBoost 模型提供出色的并行計算能力。

一個完整的貸款逾期風險混合預測方案包括外部資料處理子系統、線上系統以及離線系統。對于外部資料,統一彙入資料規劃與監控平台,而後由一個服務接口将部分資料送至離線系統。

在離線系統中,來自外部資料子系統和線上系統的部分資料被彙入一個資料集市 (Data Mart),清洗之後,進入離線的模型訓練和算法部署流程,經訓練後的模型算法将被導入線上子系統的預測系統中。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

經過某大型商業銀行實際部署後證明表明,最終的混合模型方案可以有效地提升 預測的準确率,并大幅降低預測時延。

資料顯示,與人工預測方案相比,LSTM 方法的準确性提升一倍,而混合模型方案的預測準确率能夠提升 2 倍以上,同時預測時延則縮短到了 2 天 (效率提升 10 倍以上)。線上預測方案 (可放貸風險預測) 中,每筆預測時間均小于 1 秒,顯著提升客戶滿意度。

3、推薦系統:神經協同過濾+寬深模型模型

推薦系統已經成為許多行業拓展銷售和服務的關鍵工具。例如,有 80% 的使用者在 Netflix 上通過推薦來選擇所觀看的電影;而 YouTube 上的這一數字為 60%,且基于深度學習的推薦系統在推薦品質方面正獲得越來越多的認可。

中國人壽上海資料中心是保費收入超過四千億元的超大型保險企業中的重要一員。過去,他們的營銷人員隻能通過個人從業經驗和公司的主推險種來給客戶推薦,而很少考慮到客戶自身的需求。尤其是對于沒有經驗的年輕營銷員來說,更容易産生誤導式的推銷。

是以,中國人壽上海資料中心計劃以資料為支撐,通過基于深度學習的推薦模型幫助業務人員高效地推薦個性化險種,進而解決因業務規模和險種規模不斷擴大帶來的問題。

通過采用英特爾的大資料平台 Analytics Zoo,中國人壽上海資料中心推薦系統的命中率為 99.8%,歸一化折扣累積增益到達 0.66,這一結果超過了預期的數值。可以認為,該推薦系統具有良好的效果。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

作為全球領先的支付解決方案提供商,萬事達卡 (MasterCard) 擁有 26 億張信用卡,年交易量達 560 億筆,通過引入英特爾 Analytics Zoo「大資料分析 +AI」平台,建構基于深度學習的推薦算法。

通過與基準 ALS 模型進行比較,萬事達卡的深度學習模型有顯著的改進。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

利用 Analytics Zoo 提供的端到端 AI 與大資料分析能力,金融企業得以快速地利用自己的資料資源,在其既有大資料平台上建構深度學習模型推薦系統,無須從頭建設,可大幅減少金融企業建設業務推薦系統的成本與時間。

4、影像分析:ResNet+Caffe 優化方案

保險行業中的各個險種都對圖像分析有着巨大需求。

例如,車險的投保和出險,需要被投保人在投保系統中上傳身份證、行駛證、車輛合格證等證照,再由背景從業人員進行稽核。常用的各類證件、簽章多達數十個,全部采用人工稽核不僅費時費力,出現錯誤也無可避免。再例如,日益受到關注的健康險,也需要相關核保人員判讀被保險人的 X 光、CT 等影像,進而對被投保人的近期和遠期健康狀況做出準确評估。

針對該領域的 AI 應用,英特爾在人臉檢測、比對、識别、活檢等各個子產品上都有相應的算法和模型可供參考。例如,由英特爾推出的 OpenVINO™ 工具套件已經提供了幾十個預訓練好的 AI 模型,讓使用者無需從零開始建構諸如人臉檢測識别等 AI 應用。

深度神經網絡是目前 AI 影像分析中應用最廣泛的網絡模型之一,在經典的深度神經網絡中,網絡層數越多,能夠提取到的不同層次的特征越豐富。同時,更深的網絡,能夠使得提取到的特征更抽象,更富有語義資訊。

但随着深度不斷增加,退化 (Degradation) 問題也随之産生,即準确率會先上升直至飽和,而繼續增加深度,卻導緻準确率逐漸下降。殘差網絡 (Residual Net,ResNet) 可以有效地解決這一問題。

針對衆多流行 AI 架構,諸如 BVLC Caffe、TensorFlow、Apache MXNet 等,英特爾進行了大量的優化工作。以 Caffe 為例,其相較于 BVLC Caffe,英特爾至強可擴充處理器的優勢得到進一步釋放,實作 1+1>2 的效果。

英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

與面向英特爾架構優化的 Caffe 架構結合層融合技術,使 ResNet 等卷積神經網絡在英特爾至強可擴充處理器平台上進行 2D 圖像推理時,可媲美甚至超越現有平台。

同時,平台還對 INT8 精度推理有着良好的支援,且架構提供的 calibration 等工具可以實作神經網絡無縫切換到 INT8, 進而更大幅度提升性能。

一項資料表明,與使用 BVLC Caffe 相比,英特爾至強可擴充處理器機關時間推理性能可提升達前者的 51 倍之多,推理時長則縮短至前者的 4.7%。

醫學影像不僅是醫療機構最常用的診療依據,也是保險機構判斷被保險人健康狀況的重要依據。中國平安基于 2D 圖像分類、檢測及定位上有着非常優異特性的 ResNet 和前沿的 3D 圖像分割模型 V-Net 分割網絡,采用面向英特爾架構優化的 Caffe 等深度學習架構,對 2D/3D 醫學影像進行 AI 推理。

在 2018 年初的肺結節分析評測中,平安不僅在肺結節智能讀片技術中榮獲全球第一,更分别以 95.1% 和 96.8% 的精度,重新整理了「肺結節檢測」和「假陽性篩查」的世界紀錄。高效的醫學影像分析能力将幫助保險公司準确地分析出所核實的保險是否是騙保的行為,進而大幅提升其保險業務能力。

基于 AI 的影像分析能夠有效助力金融機構提高業務辦理效率、防範欺詐風險并提升使用者體驗。通過 Caffe、TensorFlow 等深度學習架構,此類應用已經在保險行業的智能核保流程中,針對病理影像判讀、、票據處理等場景獲得了廣泛的使用。

在各界金融機構都積極引入人工智能技術的當下,把控風險、降低人力成本、提升業務價值成為金融行業更新的關鍵,英特爾針對各大領域龍頭企業打造出的專業性方案極具針對性和借鑒價值。

在這個過程中,原有資料庫架構和技術資源得以保留,算法能力和 IT 設施基礎卻在潛移默化地完成了更新,業務能力和客戶體驗進一步提升,英特爾核心至強算力平台與 AI 算法融合的價值也在方案落地的那一刻得以實作。

本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀