天天看點

聯邦學習白皮書

1.聯邦學習定義

隐私保護的分布式機器學習架構,各參與方無需共享資料資源,就可以進行資料聯合訓練,建立最終機器學習模型。(合作共赢模式,共同富裕政策)

特征:

  • 參與方資料保留在本地,一定程度上保證資料安全性
  • 參與者聯合訓練模型,共同富裕
  • 參與方地位平等
  • 與中心化的機器學習模組化效果相差不大 $ |{V_{fed}} - {V_{sum}}|< \delta $
聯邦學習白皮書

每個參與方生成自己模型,再去聚合全局模型 

聯邦學習亮點在于保障隐私資訊和資料安全,雖然增加了通訊等開銷,但是通過本機進行模型訓練,然後加密機制下的參數交換與安全聚合,最終實作一定程度上的隐私保護。

2.FL與DP 差別

FL的隐私保護通過HE加密等手段完成,資料和模型本身不進行傳輸,而且資料是準确的。

DP通過添加噪音,k-匿名、l-多樣性、t-緊密性采用概括化方法模糊敏感屬性,這些都進行了資料傳輸,而且處理後的資料是接近準确的。

3.FL與Distributed ML 差別

DistributedML包括機器學習的訓練資料分布式存儲、計算任務分布式運作、模型結果分布式釋出,參數伺服器作為加速機器學習模型訓練的一種工具,将資料存儲在分布式工作節點上,通過一個中心式排程節點調配資料分布和配置設定計算資源,以便高效獲得最終訓練模型。這些和FL相似。

白皮書提到FL不同于 參與方完全自治且更強調對資料擁有這的資料隐私保護。

FL面向海量終端,其不同于DistributedML:具有昂貴的通訊、系統的異構性、統計的異質性等特征。

4. FL與Blockchain 關系

都是去中心化的架構,區塊鍊是一種完全P2P網絡結構;FL中第三方承擔聚合模型等功能。

都涉及到加密算法,區塊鍊包括Hash、非對稱加密;FL使用HE。

Blockchain在各個節點儲存完整資料;FL資料隻儲存在本地。

Blockchain不同節點競争記賬獲得獎勵;FL依據每一方的貢獻配置設定獎勵。

Paper List:

McMahan[15]指出聯邦學習可以通過差分隐私,多方安全計算,或它們的結合等技術來提供更強的安全保障。

Bonawitz[16]指出聯邦學習中,可以利用多方安全計算以安全的方式計算來自使用者裝置的模型參數更新的總和。

Truex[17]中提出了一種利用差分隐私和多方安全計算來保護隐私的聯邦學習方法。

Liu[18]提出将加性同态加密 (AHE) 應用于神經網絡的多方計算。

聯邦學習白皮書

  5.FL分類與架構

  • 橫向:按橫向使用者次元切分,取特征相同 使用者不完全相同的資料訓練。同行不同地
  • 縱向:按縱向特征次元切分,取雙方使用者相同 特征不完全相同的資料訓練。同地不同行
  • 遷移:不對資料進行切分,适用資料或标簽不足的場景。
聯邦學習白皮書

6.應用場景

車險定價、信貸風控、銷量預測、視覺安防、醫療診斷、隐私保護廣告、自動駕駛

7.研究方向

從攻擊對象劃分

  • 用戶端攻擊:參與疊代,檢查收到消息和模型、篡改訓練過程
  • 服務端攻擊:參與疊代,檢查收到消息和梯度更新、篡改訓練過程

從攻擊手段劃分

  • 模型更新攻擊:敵手控制用戶端産生任意輸出(拜占庭攻擊),導緻模型損失函數$ \mathcal{L}$收斂到次優模型,甚至模型發散
  • 資料攻擊:篡改用戶端資料
  • 逃逸攻擊:構造特定輸入樣本,欺騙目标系統,完成模型推理