天天看點

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

機器之心報道

機器之心編輯部

3 月 23 日,在機器之心 AI 科技年會上,螞蟻集團金融機器智能部總經理周俊發表了主題演講《可信 AI 在數字經濟中的實踐與探索》。

周俊介紹,如果将數字經濟比作一棵樹,樹幹中的人工智能 (AI)、大資料、雲計算等技術,構成了數字經濟的核心,起着承上啟下的作用;樹根中的隐私、安全等因素,決定長勢以及未來;樹幹跟樹根必須緊密融合,才能枝繁葉茂,其中 AI + 隐私、AI + 安全等成為當下亟需突破的方向。而可信 AI 技術理念将是數字時代抵禦風險、提升科技包容度的關鍵能力之一。螞蟻集團于 2020 年 6 月正式對外釋出了其探索 6 年的可信 AI 技術架構體系,目前在隐私保護、可解釋性、魯棒性、公平性等技術體系方向上,已有不少的研究突破和落地,也依然任重道遠,需要持續投入。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

以下為周俊在機器之心 AI 科技年會上的演講内容,機器之心進行了不改變原意的編輯、整理:

非常高興來到機器之心。大家都知道人工智能正在成為日常生活中大家不可或缺的一部分,它被用于幫助使用者完成各種各樣的決策。但是 AI 技術其實也暴露出了很多弱點,比如偏見和易受攻擊。為了解決 AI 中的這些問題,建立可信賴的人工智能的機制、方法将非常重要,這也是我今天要分享的主題,即可信 AI 在數字經濟中的實踐與探索。

具體到數字經濟中,我們可以看到,在國際清算銀行給出的金融科技架構裡,AI 得到了廣泛的應用。樹幹中的人工智能、雲計算等技術成為了金融科技的核心,并且承載了非常重要的承上啟下的作用。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

圖源:https://twitter.com/bis_org/status/1222834967920685057

在産業智能化的過程中,隐私保護、資料安全等根本性的問題對人工智能的影響會變得越來越重要,也決定了未來整個數字經濟的走勢。是以,樹幹跟樹根必須緊密融合才有可能枝繁葉茂。其中,AI + 隐私 / 安全等成為當下大家亟需突破的方向。可信 AI 對企業和學術圈都非常重要,隻有確定 AI 做出的決策安全可信、尊重隐私、容易了解,人們才能相信 AI,它才能真正發揮作用。

我們在打造數字經濟平台的過程中也聯合了很多外部的高校,着力發展出了可信 AI 的技術。我們希望可信 AI 在資料隐私保護、可解釋性和因果分析、公平性和安全性(魯棒性)方面都能有比較好的能力,這樣才能滿足公衆或者業界對 AI 的期待。

為了實作可信 AI 的技術,我們在跟數字經濟結合的同時,沉澱了一些重點的方向,比如公平機器學習、對抗機器學習、圖機器學習、可解釋機器學習、可信隐私計算等等。通過這些重點技術的研發,我們能夠為風險管理、安全風控、财富管理等上層具體應用提供支撐,確定這些方法論能夠被科學地定義、拆解成工程的目标,進而推出各種平台和工具,使得 AI 整個生命周期裡都能應用「可信 AI」這樣一個理念。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

接下來我會逐一介紹我們在圖、可解釋、隐私保護、對抗四個方向取得的進展。

圖機器學習

圖是非常常見的非歐式空間下的一種資料結構,在社交網絡、生物醫藥等領域都有非常廣泛的應用。它實際上是對節點和邊進行模組化。由于圖具有非常好的表達能力,這幾年出現了大量的被稱為圖神經網絡(GNN)的方法。GNN 是在圖上面運作的深度學習方法,在推薦、欺詐檢測等很多領域都有非常好的效果。

在實踐中,我們發現,GNN 能夠比較好地克服資訊不足的問題,進而提升 AI 對長尾客戶、小微企業等薄資訊客群的服務能力,使得他們享受到數字服務、數字經濟的機率大幅提升。它能提升 AI 的覆寫率,對 AI 的包容性也有正面的貢獻。但是,一個比較大的挑戰是如何處理工業級規模的圖模組化問題。

我們知道,在機器學習中,工程是算法的一個底座:沒有強大工程的支援,算法很難被大規模應用。為了支援前面所說的工業級圖資料的結構,我們首先研發了一個圖學習系統——AGL(Ant Graph Learning)[1],這個系統會依據圖神經網絡裡的兩個經典操作——彙聚和更新——進行學習。我們這裡列了一個基本公式。一個可以捕捉到 k-hop 鄰居的圖神經網絡,它基本的 k 層的學習範式如圖上所示,從示意圖上也可以看到這裡面所做的傳播和聚合的方向:

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

為了實作這樣一個圖神經網絡的訓練和大規模的推理,我們的系統主要分為三個部分。當然這個系統設計的初衷會更加關注可擴充性、容錯性,以及盡可能對現有的方法進行複用。基于這樣一個原則,我們有三個對應的核心子產品:

GraphFlat(對樣本或鄰居進行處理);

GraphTrainer(真正的訓練部分);

GraphInfer(專門做大模型上的推理工作)。

接下來我會就其中的一些關鍵部分進行解釋。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

首先,在訓練器這一部分,我們運用了傳統的參數伺服器的結構。它可以存儲比較大的參數,把參數切分成多片很好地存儲起來,然後利用工業級系統中存在的大量機器資源,也就是 worker,進行并行的計算。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

在 AGL 中,我們利用批處理架構如 MapReduce 來進行圖樣本生成,在訓練期間設計了如邊分區、圖裁減和流水線并行等多種計算優化政策。我們能夠看到,在一個比較大的工業級資料集上,在一個 62 億節點、3300 多億條邊的真實的圖資料上面,我們能夠使用 3 萬多個 core 完成真實系統的測試。也能夠看到,在這樣一個大規模資料集上面,我們的 AGL 系統能夠具備近線性的加速比,并且有比較好的可擴充性,也為支援工業級規模的圖機器學習的算法打下了比較堅實的基礎。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

基于這樣一個系統,我們首先設計了一個反套現的應用。我們利用這種轉賬交易的大規模資金的關系,針對買家子圖、賣家子圖、買賣家路徑子圖,通過圖仿真産生出交易子圖,然後再利用 AGL 系統進行動态的圖學習,學習到圖表征後我們會進行相應的連結預測,對大規模資金關系中存在的套現交易進行識别,使得套現率有比較大幅度的下降(相對下降 10%)。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

完成了這個任務之後,第二部分是我們如何結合這樣的系統提升 AI 的包容性,尤其是對于長尾使用者和中小企業。我們發現,中小企業會存在麥克米倫缺口(由于金融資源供給不足而形成的巨大資金配置缺口),這經常困擾着中小企業的發展。我們也知道,中小企業是毛細血管,對經濟、金融的運作産生了非常關鍵的作用。我們希望通過 GNN,使得分析信用曆史有限的客戶的信用度成為可能,進而滿足中小企業在金融上的一些訴求,提升 AI 的包容性。

具體來說,我們首先會進行供應鍊挖掘(連結預測技術),即預測哪些企業之間可能存在經營族群,然後在隐私保護的前提下基于族群進行信用分析。是以,當我們能将大量的中小企業基于供應鍊族群彙聚到一起,并有了一定的分析之後,便能識别企業的信用情況。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

為此,我們提出了一個時空結合的 GNN(Spatial-Temporal aware Graph Neural Network,ST-GNN )[2]。首先,我們通過前面提到的供應鍊挖掘補足企業之間的關聯,再結合圖裡面現有的一些風險标簽,通過這個時空結合的 ST-GNN 方法,把這樣一個問題轉化成信用評分的問題,進而對整張供應鍊網絡裡面的企業完成信用評分,基于這樣的信用評分評估這個企業違約的機率,進而滿足他們金融上的訴求。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

我們跟一些傳統方法(如 GBDT、GAT)做了對比。結果顯示,我們這個結合了時空資訊的方法能夠在中小企業的金融訴求預測上大幅改進模型的性能。主要原因在于,我們的方法結合了很多圖上面的資訊,而且設計了時空注意力的機制,能夠比較好地融合多元、多元度的資訊,展現出企業之間比較複雜的族群相關度,進而識别中小企業的信用評分,基于這樣的信用評分助力他們享受對應的金融服務。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

為了提高供應鍊挖掘的能力,我們也提出了另外一種路徑感覺的圖神經網絡(Path-aware Graph Neural Network,PaGNN)[3]。它融合了傳播和彙聚兩個算子,并在融合的過程中學到了兩個節點之間的結構(比如路徑的結構),這樣就能更好地判斷兩個節點之間可能存在的複雜相關,進而更好地繪制族群,助力供應鍊金融,滿足中小企業資金上的需求。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

我們這裡給了一個案例。首先,通過公開的企業數字資訊,我們可以查到供應鍊網絡的一張圖。有了這樣一張圖之後,我們可以形成某些品牌的供應鍊網絡,然後再通過前面提到的各式各樣的 GNN 方法對圖進行相關度挖掘,然後再把它轉成信用評分的問題。有了這樣的一個圖的方法之後,族群發現的準确率也有比較大的提升,這可以助力下遊的企業更好地拿到經營性貸款,可以提高 AI 覆寫率和包容性。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

同時我們也注意到,圖學習這種算法本身存在魯棒性的問題。于是,我們跟外部高校合作,提高了模型的魯棒性,也解決了模型過渡平滑、難泛化等潛在問題。我們還提出了一個新的穩健的異質 GNN 架構來對抗拓撲對抗性攻擊。它配備一個注意力淨化器,基于拓撲和特征資訊來修剪對抗性鄰居,進而進一步增強 AI 的可靠性 [4] [5] [6] 。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

可解釋機器學習

現在很多 AI 的方法都是一個黑盒子產品(下圖),人們對中間的過程并不是特别了解。我們希望通過可解釋的機器學習,讓黑盒由黑變灰(在一定程度上可解釋),并最終變成白盒(完全可解釋)。可解釋機器學習使得機器學習模型能夠以易于了解的方式向使用者解釋或呈現其行為。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

我們提出了一種新的方法—— COCO(COnstrained feature perturbation and COunterfactual instances) [7] 來解釋任意模型的測試樣本。在此之前,業界已經有一些可解釋方法,比如自身可解釋性方法(如決策樹)、全局可解釋性方法(如 PLNN)、後置局部可解釋性方法(如 SHAP)等。而我們提出的是一個比較适合在工業界中應用的可解釋性方法。

這個方法本身不是很複雜,算法的流程主要分三步:首先,它會去篩選測試樣本的近鄰,利用 Mixup 生成擾動資料;然後,它會對測試樣本進行有限制的擾動得到反例樣本;最後,它通過度量反例樣本,計算測試樣本的特征重要度,來給出任意模型的可解釋性。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

在圖像資料上面,我們這個方法篩選出了前 200 個重要特征。畫成圖的話,這些特征基本上貼合在數字的邊界上,這樣一看就知道挖掘出來的重要特征确實在上面。在工業界中常用的表格上面,我們也會先把重要特征挖掘出來,再訓練成模型,然後看模型挖掘出來的重要特征和其他方式(如 SHAP、LIME)挖掘出的特征精度效果的對比。可以看到,我們的方法在精度上有比較好的效果。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

據此,我們可以得出這樣幾個結論:一是通過有限制的擾動,COCO 能夠更容易辨識出重要特征;二是通過 Mixup 進行增廣,資料會更合理;三是 COCO 魯棒性表現相對較好并且更穩定。

我們将這樣的方法用到了風險感覺場景中。比如有時候我們發現某人(如張某某)支付寶有兩個賬戶,他用一個賬戶頻繁給自己的同一賬戶進行轉賬。此時,我們的風險感覺模型可能會判斷這個賬戶被冒用了。我們希望知道這個風險感覺模型為什麼會做出這樣一個決策。是以,我們會用 COCO 模型生成該風險感覺模型的重要決策因子。我們最後可能會得出這樣一些因子:比如說相同手機号名下平台會員優先級排序;曆史累計登入支付寶次數;近 360 天交易異常指數等。

通過這樣的一些重要特征,我們可以分析一個風險感覺模型為什麼會做出某個決策,進而去驗證這個風險感覺模型是否合理,它給出的結果是不是可信、可靠。通過這樣一個方式,我們把這些重要決策因子給到業務決策,他們會進一步核實實際情況(比如冒用人和被冒用人之間是否有親屬關系),然後再進一步去做人機結合的判斷,決定是否當機賬号或報案。這能使我們的業務人員更好地了解風險感覺模型決策的邏輯,也能幫助我們的業務專家結合模型解釋來幫助決策,控制模型風險。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

在這樣一個涉及金融賬戶的決策裡,我們其實是非常謹慎的。我們希望更好地控制模型的風險及對使用者的打擾,使得風險感覺模型能夠比較好地保護大家的賬戶安全,打擊犯罪。我們也希望專家了解這個模型,然後把業務的經驗反哺到業務模型裡面,進而使人機結合達到比較好的效果。

隐私保護機器學習

隐私保護已經在業界發展了很多年,也積累了很多術語,比如匿名化、差分隐私、TEE、多方安全計算等。每一種技術都有自己适用的場景。但我們發現,現在的隐私保護技術很難在模型強度、精度、效率三方面取得比較好的平衡,這三方面目前是一個互相制約的局面。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

我們在推薦、營銷、廣告等工業場景中經常見到大量的資料,同時又非常稀疏。雖然學術圈有很多隐私機器學習方法,但如何将它們應用到大規模稀疏資料上是一個比較大的問題。

為此,我們提出了一種名為 CAESAR(Secure Large Scale Sparse Logistic Regression)[8] 的方法,它會基于混合 MPC 協定,設計出大規模隐私保護 LR 算法。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

為什麼會設計這樣一個混合 MPC 協定?因為我們發現:1)雖然同态加密協定總體來說通信複雜度比較低,但是計算複雜度比較高,而秘密分享協定的通信複雜度雖然較高,但計算複雜度較低;2)機器學習模型中的非線性函數在密态空間下沒有辦法直接計算,或者說計算性能沒有辦法滿足真實場景的需求,需要高效的表達式,在滿足模型精度的前提下降低函數的計算要求 ,進一步降低通信開銷。是以,我們提出了混合 MPC 協定,設計了隐私保護矩陣乘法,再通過泰勒展開去降低非線性運算的複雜度,完成了 LR 的方法。

這裡面的要點包括:1)稀疏的矩陣乘法,我們通過混合的 MPC 協定,在合适的地方選擇合适的協定,不需要産生 Beaver’s triple,能夠更好地提升效率;2)安全、稀疏的矩陣運算,能夠同時交叉利用秘密分享和同态加密的技術,最後結合分布式計算,在協調器的指揮下充分利用已經有的叢集資源。每個叢集本身也是分布式的學習系統,通過這樣的方式,我們能夠非常好地去進行分布式的運算,然後再通過整體的協調器的協調來完成最終的運算。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索
螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

通過這種方式,我們發現 CAESAR 的效率達到了業界已有的 SecureML 方法的 130 倍左右。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

基于這樣的隐私保護技術,我們跟浦發銀行做了聯合風控的應用。我們在已經授權的資料上進行了嘗試,使得模型訓練和模型運作階段均不共享原始資料。與單方面運算相比,聯合運算的模式能夠更好地提升模型的性能名額(比如将 KS 名額提升 12%~23%)。将模型産出的結果運用到風控場景中,我們能比較好地實作差異化的授信政策,防止潛在高風險貸款,進而将合适的貸款給到合适的人,真正實作防範金融風險的目的。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

同時,我們也将這樣的技術應用到了聯合分析和知識融合等場景 [9]。其核心技術可以概括為:基于雲計算和可信隐私計算技術,通過模型梯度和參數安全共享來實作價值的流通,這可以應用于機構内部的營運優化和機構之間安全共享資訊。比如我們可以通過隐私保護知識圖譜等技術,實作機構之間領域知識融合,提升實體識别準确率,助力保險疾病、證券分析等應用。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

對抗機器學習

在對抗機器學習中,我們主要采用的是左右手互搏的方式,即假定我們對模型本身沒有太多的了解,基于這樣一個假定去攻擊我們的系統(黑盒攻擊)。我們設計了兩種攻擊方式(如下圖)。通過這樣的一些攻擊方案以及樣本的多樣性,我們希望不斷提升樣本的遷移性和遷移攻擊效率,以此來考察業務當中數字鍊路的安全情況,增強抗打擊能力。同時,我們将對抗攻擊中産生的樣本也放到了機器學習訓練的平台裡面。我們搭建了一個對抗訓練的平台,将前面攻擊方法所産生的樣本融合到訓練機制中,使得決策邊界從紅線變到藍線,相應來說會更平滑,更平滑意味着通用性會變得更好,能夠提升模型的魯棒性,甚至在某些情況下能夠改善樣本不均衡的問題,進而帶來業務精度的提升 [10] 。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

前面我們總結了很多可信 AI 在數字經濟當中的落地和實踐,從包容性到可解釋隐私保護到對抗學習。我們也發現,企業 AI 的每一小步的應用都意味着我們離智能未來的夢想更近了一點。

在實踐和探索可信 AI 的過程中,我們也發現,業界雖然有一些可信 AI 的落地案例和研究,但這個方向依然任重而道遠。雖然已經有不少的突破,但目前大部分的突破還聚集在點狀的場景上面。

我們也堅信,可信 AI 技術能夠持續提升人工智能技術在金融場景中的透明度、友好性,會使得決策更智能。由于目前的 AI 還處于高速發展的階段,我們今天分享的實踐和落地可能離最終的可信 AI 還有些距離,我們也希望通過今天分享的我們在工業界中的研究、實踐、踩坑經驗和不成熟的嘗試,能夠讓更多的同行去深入思考,能夠真真正正地做到通過可信 AI 抵禦數字時代的風險,提升科技包容度。

螞蟻集團周俊:可信AI在數字經濟中的實踐與探索

參考資料:

[1] Zhang D, Huang X, Liu Z, et al. AGL: a scalable system for industrial-purpose graph machine learning[J]. Proceedings of the VLDB Endowment, 2020, 13(12): 3125-3137.

[2] Yang S, Zhang Z, Zhou J, et al. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining[C]//IJCAI. 2020: 4661-4667

[3] Yang S, Hu B, Zhang Z, et al. Inductive Link Prediction with Interactive Structure Learning on Attributed Graph[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Cham, 2021: 383-398.

[4] Yu L, Pei S, Zhang C, et al. Self-supervised smoothing graph neural networks[C]. AAAI 2022, accepted.

[5] Bo D, Hu B B, Wang X, et al. Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations[C]. AAAI 2022, accepted.

[6] Zhang M, Wang X, Zhu M, et al. Robust Heterogeneous Graph Neural Networks against Adversarial Attacks[C]. AAAI 2022, accepted.

[7] Fang J P, Zhou J, Cui Q, et al. Interpreting Model Predictions with Constrained Perturbation and Counterfactual Instances[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2021: 2251001.

[8] Chen C, Zhou J, Wang L, et al. When homomorphic encryption marries secret sharing: Secure large-scale sparse logistic regression and applications in risk control[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2652-2662.

[9] Chen C, Wu B, Wang L, et al. Nebula: A Scalable Privacy-Preserving Machine Learning System in Ant Financial[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 3369-3372.

[10] Huan Z, Wang Y, Zhang X, et al. Data-free adversarial perturbations for practical black-box attack[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Cham, 2020: 127-138.

繼續閱讀