天天看點

銀行的大資料應用

大資料發展簡介

“大資料”一詞據稱最早于1980年出現在美國著名未來學家阿爾文·托夫勒所著的《第三次浪潮》一書中,他在書中将“大資料”稱為“第三次浪潮的華彩樂章”。在筆者看來,大資料的應用效果主要取決于兩部分,一是大資料的技術部分,二是對資料品質和價值有重要影響的資料治理部分,二者應當并重。本書分别介紹下這兩條線的發展曆程。

(一)大資料的技術部分

被廣泛認可的“大資料”概念最初是由著名咨詢公司Gartner的進階分析師道格拉斯·蘭尼(Douglas Laney)提出的。2001年,蘭尼在一篇名為《3D資料管理控制資料量、速度和多樣性》指出,大資料管理面臨三大挑戰:容量、多樣性和速度(Volume 、Variety、Velocity ,3V),後來成為大資料的三大基本特征。

現今常說的大資料技術,起源于Google的三篇重量級論文:2003年10月發表的《Google檔案系統》、2004年12月發表的《MapReduce:超大叢集的簡單資料處理》和2006年11月發表的《BigTable:結構化資料的分布式存儲系統》。這三篇文章論述了大資料技術的三架“三駕馬車”:分布式檔案系統GFS、大資料分布式計算架構MapReduce和NoSQL資料庫系統BigTable。

2006年,天才程式員Doug Cutting啟動了一個獨立的項目專門開發維護大資料技術,誕生了大資料技術的經典架構——Hadoop,主要包括Hadoop分布式檔案系統HDFS和大資料計算引擎MapReduce。2008年,Hadoop正式成為Apache的頂級項目,Doug Cutting本人後來也成為了Apache基金會的主席[1]。

2008年9月《自然》雜志在推出了名為“大資料”的封面專欄,通過《The Next Google》,《Welcometo petacentre》,《Disillingmeaning from data》等一系列文章,更全面的介紹了大資料。到2009年,大資料技術已經基本成熟,轉入大規模應用階段。實時計算方面,Spark(2009)、Storm(2010)、Flink(2015)等主流技術也先後形成。

2012年,頗具影響力的《大資料時代》一書出版;同年,瑞士達沃斯世界經濟論壇上釋出了題為《大資料,大影響》的報告;同年,美國頒布了《大資料的研究和發展計劃》;同年7月,聯合國在紐約釋出了題為《大資料促發展,挑戰與機遇》的大資料政務白皮書。

2014年,“大資料”首次寫入我國《政府工作報告》;2015年,國務正式印發《促進大資料發展行動綱要》;同年5月,首屆數博會在貴陽召開,旨在打造國際性的資料産業博覽會;2016年2月,國家發展改革委、工業和資訊化部、中央網信辦同意貴州省建設國家大資料(貴州)綜合試驗區,這也是首個國家級大資料綜合試驗區;同年10月,國家在京津冀、珠江三角洲、上海、重慶、河南等七個區域推進國家大資料綜合試驗區建設。

如今大資料技術早已脫離技術炒作期,成為其他技術的底層支撐,比如人工智能技術。盡管大資料市場依然具有不錯的情景,但掀起大資料時代的Hadoop的供應商們,日子卻已經很不好過了。全球三大Hadoop開源大資料軟體供應商中的Cloudera 和 Hortonworks已經于2018年合并,抱團取暖;另一家公司MapR已經被收購。大資料技術已經從Hadoop推動的第一代向更智能、更實時、面向互動的技術方向轉變。

(二)資料治理部分[2]

2002年,資料治理概念首次出現在學術界,美國兩位學者發表題為《資料倉庫治理》的論文,關于“資料治理”的正式研究就此開始。

2003年,DGI(國際資料治理研究所)成立,研究資料治理理論架構,與ISO國際标準化組織對資料管理與資料治理進行定義。

2009年,國際資料管理協會(DataManagement Association,DAMA)釋出《TheDAMA Guide to the Data Management Body of Knowledge》(簡稱DMBOK),即DAMA資料管理知識體系指南,基本固定了資料治理的理論架構。

我國資料治理的探索是在DMBOK基礎上的延展。2015年提出了《資料治理白皮書》國際标準研究報告,2018年釋出了《銀行業金融機構資料治理指引》,這标志着資料治理在我國銀行金融機構中開始落地實踐。

從2019年開始,各銀行要開始根據監管合規的要求,逐漸開展包括資料治理組織架建構設、資料管理專項工作推進、資料品質控制落實、資料應用和資料價值實作,以及自評、審計和監督檢查等工作。資料治理已經成為銀行的重要工作事項。

[1]引自《大資料技術發展史:大資料的前世今生》,2019-02-14,慕白,慕白部落格。

[2]本部分多處引自《銀行業資料治理實踐難點及應對》,2019-07-23,德勤。

國外銀行的大資料應用

國外銀行方面應用大資料較為成功的兩個企業案例分别來自富國銀行(WellsFargo)和美國第一資本(Capital One)。

(一)美國富國銀行(Wells Fargo)

美國富國銀行(Wells Fargo)是大資料方面較為成功的應用案例。

富國銀行是很早就重視資料應用的企業,在1983年就建立了企業級資料倉庫系統,但是其資料應用是圍繞不同的業務線分别建立的,導緻資訊難以共享。2010年前後,通過對遺留資料系統的遷移,富國銀行逐漸實作了企業級資料整合,建立了企業級資料湖。

在資料湖的基礎上,富國銀行建立了資料集市,所有的資料服務以“Data API”的形式提供調用。這種形式很像最近流行的“資料中台”概念,由此也可見,系統架構設計往往有殊途同歸的效果。

富國銀行對資料治理工作的重視程度也是業内少有的,将資料戰略寫入公司戰略。該行是最早設定首席資料官(CDO)的銀行(2014年),擁有上萬名資料方面的技術人員從事資料分析、模型開發工作。2017年,富國銀行建立了全行集中的資料營運和洞見團隊。目前大資料賦能應用集中在使用者體驗、使用者分析以及風險合規等方面。

(二)美國第一資本銀行(Capital One)

作為全美前10大銀行中,唯一的非百年老店, 美國第一資本銀行(Capital One),在資料應用方面有着獨到之處。

Capital One認為“資料和技術将使銀行業發生革命性的變化,特别是從信用卡開始”。Capital One将信用卡看作是基于資料的的技術業務,而不是貸款業務。CapitalOne的口号是“建立一家從事銀行業務的技術公司,與使用技術的銀行競争” 。這種理念決定了它的與衆不同。

Capital One建立了“邊測試邊學習”(Test-and-Learn)的資料分析方法,基于分析結果改良業務應用。除主營業務外,CapitalOne對客服電話的處理也獨具匠心,通過對大量的通話記錄進行分析,建立通話模型,識别出客戶在信用卡使用哪個階段中遇到什麼問題,進而提前預判客戶來電内容,迅速連接配接到相關人員為客戶正确解答問題,大幅度縮短客戶通話過程,節省了客戶和銀行的時間。

國内銀行的大資料應用

(一)技術及應用方面

工行在2013年引進了業界最流行的Hadoop技術,在Hadoop基礎上搭建了大資料應用。2017年成立大資料實驗室,以完善大資料服務雲體系為目标,實作總分行資料共享、資源動态調配和海量資料存儲,提供離線計算、離線分析、線上讀寫、實時計算等多元化服務。

農業銀行在2013年開始建設完全自主可控的大資料平台,平台采用“MPP+ Hadoop” 混搭架建構設,MPP分成主庫和八大集市。2015年4月7日,生産環境正式上線,可支撐總資料量1.5PB。2016年3月,真正實作MPP與Hadoop融合,建構主倉庫MPP叢集雙活,4套GBase 8a MPP叢集共計152節點,總資料量超過2PB。

中行2015年規劃進行“Hadoop+NoSQL”的大資料平台建設。2018年8月,包含客戶畫像标簽、外部資料應用管理、資料沙箱三大服務體系的大資料平台正式釋出,中行也建設了基于海量并行處理(MPP)技術的分行資料服務平台。

建行2016年開始建設大資料智能平台,平台在資料倉庫的基礎上引入Hadoop技術,打造“MPP+Hadoop”的雙擎架構。

國内銀行大資料應用目前主要集中在客戶畫像和風險領域,與人工智能技術融合。比如工行的“融安e信”大資料反欺詐系統,2018年幫助客戶防範電信詐騙近8萬筆、避免客戶損失24億元;建行在普惠金融領域,結合企業及企業主行内外資料,運用大資料技術,建立全新的客戶評價體系,截至2019年5月末,建行普惠金融貸款餘額超過8000億元,增速超過30%,不良率較低。

此外,大資料應用也逐漸擴充到其他領域。比如客戶關系管理、營運分析、監管報送、資産負債管理、财務管理等。

(二)資料治理方面

國内大型銀行近年來也普遍加強了對資料治理的重視,建立了較為完善的資料治理機制,不斷加大資料分析人才的引進和培養力度。

工行資料治理工作主要遵從五大原則,即“架構明晰、服務導向、統一管理、持續改善、機制保障”,建構起一個相對完善的資料治理架構體系,涵蓋了目标、核心領域、基礎設施、配套機制等核心内容,明确了資料标準、資料品質、中繼資料、資料安全、考核評價、資料認責、資料生命周期、資料分布(也稱主資料管理)等八大要素和基本任務[1]。

建行自上而下建立了完整的組織管理和工作機制,以總行資料管理部作為大資料能力建設牽頭部門,并組建了大資料智慧中心,作為專門為全行提供大資料應用支援的專業化機構,為總分行各業務部門大資料應用提供全面的資料、分析方法、工具和專業人員支援,協助業務部門共同實作全行大資料戰略目标。建行每年組織實施“綠樹工程”大資料種子人才培養計劃,選拔總、分行骨幹人員到大資料中心智慧學習,以集中授課、項目實踐雙管齊下的形式,教育訓練骨幹人員掌握大資料分析工具、技術和方法[2]。

農行在資料問題治理方面逐漸探索形成了“監測-整改-跟蹤-評價”的閉環管理模式。品質定期監測的目标是收集實際工作中遇到的資料問題,并基于此設定檢查點、檢查規則來收集資料問題的整體情況;問題整改則是對發現的資料問題實行“清單制”管理,沿着“發現問題-分析原因-落實整改”的路徑,持續推進落實;問題持續跟蹤通過加強過程管理,持續反複的對資料問題進行考察,推進資料問題的徹底解決;考評機制是指揮棒,通過“橫向評價、縱向考核”機制,橫向上以品質報告為依據,定期通報各部門主管資料的品質管理工作進展,縱向上以分行資料品質考核為抓手,将品質問題的責任逐級落實到經辦行和個人[3]。

中行資料治理工作實踐包括資料治理架構、資料标準管理、資料品質管理和資料服務管理四個方面。制訂并釋出了資料治理架構政策、管理指引和操作流程,明确了包括董事會、進階管理層、會計資訊部、總行各業務條線部門、總行各技術部門、一級分行資料管理牽頭部門、一級分行各業務條線部門以及一級分行各技術部門在内的全行資料治理架構;形成了不同業務和系統間的資料一緻性規範,通過持續多年實施企業級資料模型模組化工作,已實作模型項5000餘項,陸續釋出了34項集團級資料标準及600餘項名額标準[4]。

[1]引自《推動資料綜合治理 提升資料資産價值》,2017-10-13,蘇宗國,金融電子化。

[2]引自《推進大資料應用,實作業務價值創造》,2018-10-12,劉靜芳,金融電子化。

[3]引自《夯實基礎 加強管控 創新服務——農業銀行資料共享服務之路》,2017-10-16,孫建平,金融電子化。

[4]引自《銀行數字化轉型中,資料治理的挑戰與思考》,2018-05-15,劉秋萬,金融電子化。引用時略有改動。

關于對銀行大資料應用的思考

(一)技術方面

以Hadoop為代表的第一代大資料技術已然十分成熟,功能強大,國内大型銀行的大資料平台基礎基本上也都是HaDoop架構。而曆經十餘年之後,開源Hadoop供應商日子已經十分艱難,雲架構的大資料架構S3等逐漸顯露出更多的競争優勢,後者雖然市場佔有率仍然較大,但增長已經停止。

據國内知名技術新聞網站InfoQ記者趙钰瑩2018年4-5月期間,對國外大資料廠商Teradata及其兩大銀行客戶——富國銀行和加拿大皇家銀行的采訪中了解到,由于管理難、成本高等因素,這兩家銀行并不看好Hadoop的前景[1]。

Hadoop自身的前景并不等同于大資料技術的前景,它隻是反映出了雲計算快速發展對前期技術架構的沖擊,使用者還是希望能夠獲得價格更低廉、服務更易用的産品。不過,由于國内大銀行之前已經在Hadoop上重金投入,預計短期内不會輕易改變其大資料架構。但是從長期看,現有大資料架構還是面臨着挑戰。

(二)業務方面

國内銀行對大資料的應用主要集中在精準營銷(含客戶畫像)和風險管控方面,前者與其在電商領域取得了良好的業務效果有較大關系,後者本身就是資料模型的強項。

這兩大領域的成功應用也使銀行有意願将大資料應用範圍進一步拓寬,然而,在實際工作中,大資料技術的應用還是具有較高的業務門檻的,尤其是在資料模組化方面。在以“暴力”計算方式開展相關性分析的應用模式“冷靜”下來之後,對因果關系的重視程度逐漸上升,而這對模組化能力的要求更高了。

盡管各大行的大資料戰略中都很關注資料分析人才的培養,但是資料分析人才的缺口依然很龐大,正是這些人最終了決定企業應用大資料的結果和競争力。

國外,富國銀行号稱有10000多名資料從業人員分布在各個業務條線,推動資料分析的應用,加深資料分析技術與業務之間的融合。

業務與技術的深度融合首先是人的融合。對于規模龐大的國有大型商業銀行而言,如果無法改變技術人員和業務人員之間懸殊的比例,就不可能有足夠數量的技術人員走到業務中去。做開發項目期間技術人員和業務人員的接觸僅能滿足實作的要求,而無法真正去深入地用技術推動業務的變革。大資料方面也是同樣,沒有足夠的資料分析人員與業務人員共同在業務環境中思考對大資料技術的應用,也就難以充分發揮大資料的價值。

[1]整理自《國外兩大知名銀行Hadoop采用現狀調查,Gartner所言非虛!》,2018-05-30,趙钰瑩,InfoQ

相關文章:

銀行的移動端應用

開放銀行到底都開放了什麼?

銀行的雲計算應用

FaceBook 都認真發币了,銀行區塊鍊到底用的怎麼樣?

銀行的人工智能應用

銀行的物聯網應用