小螞蟻說:
在金融行業,風險防控能力的重要性不言而喻。而螞蟻金服可實作高達99.999%的異地多活容災,千億級資金秒級實時核對“賬、證、實”等能力也讓業界有目共睹。
今年位于杭州的螞蟻金服ATEC科技大會上,螞蟻金服正式推出技術風險防控平台TRaaS(Technological Risk-defense as a Service)。經曆過無數考驗的 TRaaS 是把螞蟻金服整個分布式架構和相應的技術風險能力組合在一起的免疫系統,它将高可用和資金安全能力結合 AIOps,使系統實作故障自愈,具有免疫能力。
本文将為大家全面解讀螞蟻金服的技術風險防控平台TRaaS。
與 IaaS、PaaS、SaaS 都同屬于“aaS”輩的 TRaaS 聽起來就給人一種高科技的感覺,這個在今年螞蟻金服ATEC 科技大會上一鳴驚人的名詞的中文釋義非常令人尋味,Technological Risk-defense as a Service,技術風控即服務。而按照 ATEC 大會主辦方螞蟻金服解釋,TRaaS 是螞蟻金服内部沉澱已久推出的“技術風險防控平台”,它将高可用和資金安全能力結合 AIOps,使系統實作了主動發現風險和自我恢複的能力,進而形成了更智能化、精細化的技術風險防控體系。
而實際上,螞蟻金服醞釀 TRaaS 已經有幾年之久,在經過四年的精心打磨和無數次嚴酷考驗之後,螞蟻金服才在此次ATEC 大會上将之公布與衆,由此足見 TRaaS 對于螞蟻金服的重要性,是以,筆者覺得有必要對 TRaaS 進行一番深入的剖析和解讀。
1.TRaaS 的前世今生
“螞蟻有一個團隊,他們在背後默默守護着我們的系統,為保障業務連續性付出十二分的努力。他們就是螞蟻的技術風險團隊。大家知道,風險防控能力對于金融系統而言是第一位的,如何保障金融系統的高可用?如何保障金融業務的0資損?這就是技術風險團隊需要解決的兩大課題,随着金融行業日新月異的發展,這兩大課題逐漸發展成為包含容量彈性管控、變更風險預測、資金風險識别與故障智能決策等在内的技術風險防控領域,最終成長為更智能化、精細化的技術風險中台架構。目前我們已經在螞蟻金融雲上開放了技術風險領域最為成熟,并在螞蟻内部得到廣泛應用的技術風險防控産品。我們将繼續在 AIOps 運維方向上探索,通過資料、算法、經驗沉澱支撐 7×24h 智能運維。是以,我們将技術風險這層能力持續地抽象出來,形成 TRaaS,輸出給數字化轉型的金融機構,在分布式架構改造更新的同時提高技術風險防控能力,真正做到讓不确定的事變成确定!”螞蟻金服如此講述了 TRaaS 的來龍去脈。
正如上所述,TRaaS 誕生于支付寶系統千錘百煉的實戰經驗之中,是在經曆了嚴酷的“雙十一”等多次考驗下一步一步逐漸成長起來的技術風險防控平台。
2015 年,在支付寶經曆了慘痛的527事件以後,螞蟻金服痛定思痛,組建了技術風險 SRE 團隊,負責螞蟻金服整個金融系統的風險防控。在這一年,螞蟻完成了資金安全防控體系建設,并實作了異地多活的容災架構,還建立了容災演練機制。
2016 年,螞蟻金服成立高可用&資金安全架構組,這也是日後 TRaaS 為使用者提供高可用和資金安全兩大能力背後的強大技術支撐團隊。同年,螞蟻金服開始進行斷網突襲演練,建構自适應容災架構,這也為 TRaaS 具備的業務連續性和高可用性打下了堅實的基礎。同在這一年,支付寶資金業務核對由 T+H 提升到實時。
2017 年,支付寶系統實作了故障定位精細化,這為日後的故障自愈提供了前提條件,而灰階仿真的支援,則進一步提升了系統的健壯性。同年,螞蟻金服還引入了紅藍攻防,這為 TRaaS 注入了風險預測的能力。
2018 年,在故障定位精細化的基礎上,支付寶系統實作了故障自愈,容災仿真回歸為系統提供了出色的容災能力,而 AIOps,則将人工智能技術融合在了風險防控之中。
正是在這樣的基礎上,螞蟻金服在今年的雲栖 ATEC 大會上正式推出了 TRaaS 技術風險防控平台。
2.TRaaS 究竟強在哪裡?
“TRaaS 這套架構,我們内部稱之為”免疫系統“,它就好像人類的免疫系統。就像人們生病時,免疫系統會幫助他們快速恢複健康一樣,我們把螞蟻金服整個分布式架構和相應的技術風險能力組合在一起,提供出來,這就是我們的免疫系統——TRaaS。通過 TRaaS,我們可以保證實作 99.999%的高可用性,這背後依靠的就是我們三地五中心的架構。另外,對于金融最關鍵的資金安全,TRaaS 可以做到實時化的内部帳、證、時的核對,速度達到秒級。此外,最關鍵的是 TRaaS 具有強大的”免疫能力“,可以使我們做到風險5分鐘發現,5 分鐘自愈。”螞蟻金服副 CTO、副總裁、首席架構師胡喜一針見血的指出了 TRaaS 系統的三大強點,即高可用、資金安全、免疫能力。

高可用對于金融系統的重要性不言而喻,而對于支付寶這樣最高可達每秒 25.6 萬筆交易處理能力,擁有幾億行代碼、幾萬台伺服器以及未來可能由百億行代碼、百萬台伺服器構成的龐大和動态變化的系統而言,如何能夠合理地架構與駕馭其複雜性,使其保持健壯、靈活及高可用性對螞蟻金服而言是一個極大的挑戰。
為此,螞蟻金服通過自主研發的金融分布式架構 SOFAStack 以及金融分布式資料庫 OceanBase,為系統提供全方位的業務連續性和高可用保證。SOFAStack 将提供全棧式的金融分布式架構能力,配合金融分布式資料庫 OceanBase,能夠在保證風險安全的同時幫助業務需求靈活疊代,同時滿足異地容災、低成本快速擴容的需求。
但對于金融系統的高可用來說,容災顯然更為關鍵,螞蟻金服在本次ATEC大會上重磅推出三地五中心架構,即在三座城市部署五個機房,一旦其中一個或兩個機房發生故障,支付寶的底層技術系統會将故障城市的流量全部切換到運作正常的機房,并且能做到資料保持一緻且零丢失,三地五中心架構可實作低成本交易,無限可擴充,恢複點目标(RPO)接近 0,恢複時間目标(RTO)小于 30 秒。
同時,通過全鍊路壓測,即将足夠的流量壓力,例如類似“雙十一”的流量壓力,載入整個系統之中,來測試系統系統在極限容量下的可用性,并通過測試結果對系統進行不斷的調整和優化。
依靠這種三地五中心的異地多活容災架構以及全鍊路壓測的考驗,TRaaS 最終實作了高達 99.999%的高可用性,即極高可用性,也就是說系統年度停機時間将不超過 5 分鐘。
強點之二:千億級資金秒級實時核對資金安全對于金融系統的重要性不言而喻,尤其對于支付寶這種每秒能夠處理百億、千億級資金的平台來說,資金安全則更是生死攸關的大事了。資金安全的本質是要保證在整個業務交易的流水過程中,資金金額不能出現差錯。而這則要涉及到人、應用、資料三大對象以及故障應急、資料支撐、風險度量、灰階演練、風險識别五大能力。
而這些方面能力的提升,隻能是通過不斷的攻防演練來實作,是以,從 2016 年開始,螞蟻金服就開始進行斷網突襲演練,而到了 2017 年,螞蟻金服更是引入紅藍攻防,演練的頻率也從從一、兩個月一次逐漸過渡到現在的每天一次。
通過這樣的不斷演練,螞蟻金服的業務核對能力由最初的 T+1,逐漸過渡 T+H,直到今天的實時業務核對,而整個資金安全防控體系也包含了變更管控、自動化回歸、流量仿真、資金安全監控、應急預案等更多的内容。
TRaaS 平台負責人,螞蟻金服研究員陳亮(花名:俊義)回憶道,在整個資金防控體系的演進過程中,最初與很多銀行一樣,是靠人力做目前的金額跟全天總賬的對賬。之後通過自動的方式,将全量資料庫表導出後做計算來進行核對。後來業務量更大了以後,就引入了 T+H,核對時間也從天變到小時級,并在此過程中增加了異常管理。最後演進到實時業務核對時,又增加了熔斷決策、資金免疫以及智能監控等方面的功能,進而形成了 TRaaS 強大的千億級資金秒級核對能力。
強點三:5 分鐘發現,5 分鐘自愈的免疫能力對于一個關鍵系統,尤其是金融系統來說,如果系統不主動出現問題,就幾乎不可能知道系統存在問題,是以,螞蟻金服對此的應對方法是每天不斷的給系統注入各種故障,而且這些故障覆寫螞蟻金服的一千多個應用場景,這種注入故障的方法就好比軍事演習中的紅藍軍對抗,是以,稱為“紅藍攻防”。而在不斷的在對抗中,TRaaS 系統不斷的走向健壯,進而形成了自己所謂的“免疫能力”。
而通過引入AIOps,即智能運維,不僅能夠幫助TRaaS在發現、定位和自愈能力上更加智能,而且可以大幅降低運維人員的工作量。對此陳亮還舉了幾個例子,例如在高可用的監控領域,由于需要監控的點和資料非常多,這就會使資料的噪音增多。而這些噪音AI隻要通過一定的訓練和模式識别就可以輕松過濾掉,而對人來說這卻非常困難。又比如在支付寶内部,僅僅監控點就有五六萬個之多,而每個點都可以配置出一條資料,如果再讓人把這些資料繪成可視化的圖表,這幾乎是不可能完成的任務,而AI則可以輕松做到。陳亮還介紹說,通過AI的方式識别監控資料之間的關聯,無論是對于資金監控、故障發現、精确定位,還是風險預測,快速止血以及自動決策都是事半功倍的。
3.TRaaS 的未來會怎麼樣?
作為螞蟻金服成立四年來,最為重磅的釋出,TRaaS、
分布式金融核心套件以及大資料+人工智能平台實際上是螞蟻金服在金融系統多年積累和沉澱的技術能力、服務能力的對外輸出,它代表了螞蟻金服 3.0 時代的開放思想,也标志着螞蟻金服在金融系統領域技術上的最高水準,實際上确立的是螞蟻金服在金融領域技術領先的地位,同時也是阿裡巴巴董事會主席馬雲所倡導的“五新”中的創新金融服務中的重要一環。TRaaS 之于支付寶、螞蟻金服、甚至整個阿裡巴巴集團都非常重要,是以,我們有理由相信 TRaaS 将會成為螞蟻金服在核心金融系統領域的殺手锏,而擺在它面前的征途,将是星辰和大海!
— END —