天天看點

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

一、是什麼

概念

  • 聯邦學習(Federated Learning,FELE)是一種打破資料孤島、釋放 AI 應用潛能的分布式機器學習技術,能夠讓聯邦學習各參與方在不披露底層資料和底層資料加密(混淆)形态的前提下,通過交換加密的機器學習中間結果,實作聯合模組化。聯邦學習兼顧 AI 應用與隐私保護,開放合作,協同性高,充分釋放大資料生産力,廣泛适用于金融、消費網際網路等行業的業務創新場景。
  • 大白話
    • 舉個簡單的例子來說,有10個團隊要做同樣的任務,各自都有自己業務上的資料集,它們都希望可以借助别人的資料提升模型性能,但不願意把自己資料都暴露出去;聯邦學習的解決方案就是不共享對方的資料,但是共享對方的模型參數,實作雲端的分布式模型訓練。這樣一來大家都可以保護自己的資料,并且共享更多資料帶來的模型性能提升
      (隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

法律與合規

  • 目前,《中華人民共和國密碼法》、《中華人民共和國網絡安全法》、《資訊安全技術個人資訊安全規範》等一系列法律法規的正式生效,規範了資訊安全和隐私保護的具體要求,隐私保護的重要性和迫切性不言而喻。
    • 2020年4月,國務院印發《關于建構更加完善的要素市場化配置體制機制的意見》把資料列為生産要素,并要求”加強資料資源整合和安全保護”,”制定資料隐私保護制度和安全審查制度”。
    • 2020年5月,國務院印發《關于新時代加快完善社會主義市場經濟體制的意見》中明确提出:“加強資料有序共享,依法保護個人資訊”。
    • 2020年12月,國家發改委聯合3部委釋出《關于加快建構全國一體化大資料中心協同創新體系的指導意見》,以深化資料要素市場化配置改革為核心,優化資料中心建設布局

聯邦學習體系

  • 橫向聯邦學習(樣本聯合):特征重疊多,使用者重疊少
  • 縱向聯邦學習(特征聯合): 特征重疊少,使用者重疊多
  • 聯邦遷移學習(遷移學習): 特征重疊少,使用者重疊少
    (隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

二、名字解釋

  • 資料孤島:各個企業收集到的資料不一樣,且資料沒有利用起來,企業之間資料不共享
  • 分布式機器學習:使用者各自在本地訓練模型,最後統一更新到伺服器上,使用各個使用者的資源訓練實作分布式
  • 資料加密:希望通過資料加密,對資料使用者資料進行隐私化,這樣既保證資料共享又能保證資料私密性
  • 聯合模組化:将企業資料進行加密共享來訓練一個聯合模型(大家隻是共用模型,無法知道對方使用資料的細節)

三、學習過程

3.1 橫向聯邦學習

基本概念

  • 橫向聯邦學習的本質是樣本的聯合,适用于參與者間業态相同但觸達客戶不同,即特征重疊多,使用者重疊少時的場景,比如不同地區的銀行間,他們的業務相似(特征相似),但使用者不同(樣本不同),典型案例是來自微衆銀行的FATE:後面我們将進行實操WEBank開源聯邦學習架構FATE

學習過程

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域
  • step1:參與方各自從伺服器A下載下傳最新模型;
  • step2:每個參與方利用本地資料訓練模型,加密梯度上傳給伺服器A,伺服器A聚合各使用者的梯度更新模型參數;
  • step3:伺服器A傳回更新後的模型給各參與方;
  • step4:各參與方更新各自模型。

3.2 縱向聯邦學習

基本概念

  • 縱向聯邦學習的本質是特征的聯合,适用于使用者重疊多,特征重疊少的場景,比如同一地區的商超和銀行,他們觸達的使用者都為該地區的居民(樣本相同),但業務不同(特征不同)。

學習過程

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域
  • 縱向聯邦學習的本質是交叉使用者在不同業态下的特征聯合,比如商超A和銀行B,在傳統的機器學習模組化過程中,需要将兩部分資料集中到一個資料中心,然後再将每個使用者的特征join成一條資料用來訓練模型,是以就需要雙方有使用者交集(基于join結果模組化),并有一方存在label。其學習步驟如上圖所示,分為兩大步:
    • step1:加密樣本對齊。是在系統級做這件事,是以在企業感覺層面不會暴露非交叉使用者。
    • step2:對齊樣本進行模型加密訓練:
    • step3:由第三方C向A和B發送公鑰,用來加密需要傳輸的資料;
    • step4:A和B分别計算和自己相關的特征中間結果,并加密互動,用來求得各自梯度和損失;
    • step5:A和B分别計算各自加密後的梯度并添加掩碼發送給C,同時B計算加密後的損失發送給C;
    • step6:C解密梯度和損失後回傳給A和B,A、B去除掩碼并更新模型

3.3 聯邦遷移學習

基本概念

  • 當參與者間特征和樣本重疊都很少時可以考慮使用聯邦遷移學習,遷移學習,是指利用資料、任務、或模型之間的相似性,将在源領域學習過的模型,應用于 目标領域的一種學習過程,例如:人類學會了打乒乓球,也可以嘗試學會網球等,這種遷移學習的能力

    學習過程

    (隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域
  • 整個學習過程是利用A、B之間共同樣本來學習兩者間各自的特征不變量表示 ,同時利用A的所有樣本label 和A的不變量特征學習分類器。

四、應用場景

金融機構同營運商合作營銷–理财産品客戶營銷

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

金融政務資料聯合風控–小微貸款産品風控

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

實際案例

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

微衆銀行:多方大資料隐私計算平台 WeDPR—PPC

  • 2020年1月,微衆銀行釋出了即時可用場景式隐私保護高效解決方案WeDPR。WeDPR 融合了區塊鍊技術與隐私計算技術,使得實際商業場景中的敏感資料在區塊鍊上可以得到更好的隐私保護。2021年5月,結合區塊鍊和安全多方計算的優勢,微衆銀行又推出多方大資料隐私計算平台WeDPR-PPC

螞蟻鍊:區塊鍊網絡平台 FAIR

  • 2021年10月22日,在雲栖大會上,螞蟻集團旗下螞蟻鍊推出全新區塊鍊網絡平台FAIR。目前,FAIR 平台已經開始在政務領域、大型企業中落地,并且在金融等更多領域的探索正在進行當中
    (隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

趣鍊科技:金融業資料共享平台

  • 趣鍊科技與央行分支機構、銀行開展合作,運用區塊鍊+隐私計算技術設計了資料報送模式,在江西南昌成功落地金融業資料共享平台,建立了融資聯合征信平台,解決了機構資料共享的問題。

八分量:政府稅務資料平台

  • 稅務部門在監管各個企業彙總的稅務資料時,無法準确識别稅務資訊(如發票)是否造假,其背後有沒有真實交易行為發生。八分量提供基于隐私計算及跨鍊的稅務資料平台,來解決各企業間的資料安全、資料共享、資料流通和資料驗證問題。
    (隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

星雲基因:Oasis Network 架構

  • 醫療行業裡的病人資料具有高度隐私性,目前缺乏一套記錄患者完整醫療資訊的資料系統。星雲基因使用 Oasis Network 的架構,客戶可以保留其基因組資料的所有權,而星雲基因可以在不檢視客戶原始資訊的情況下對資料進行分析。

五、隐私計算在未來發展中的重點領域

(隐私計算)聯邦學習概述一、是什麼二、名字解釋三、學習過程四、應用場景五、隐私計算在未來發展中的重點領域

繼續閱讀