簡單的對聯邦學習做一個導論和初步認識;
聯邦學習的誕生背景:
在現今雲計算和分布式大資料發展下,單個公司的算力和模型效力已經達到了一定的峰值,越來越多的公司趨近于協同化。但是每個公司的資料極為寶貴并且公開交流及其困難,是以對于多公司聯合構成統一的大型資料庫,來訓練一個統一的大型模型,變得極為困難,這也就是所謂的“資料孤島”;
是以,聯邦學習誕生了。通過多個公司之間僅僅傳輸參數給第三方,就能使第三方根據參數建立一個龐大的模型,并且可以根據這個大模型進行回報,也就可以使得每個公司自己的模型由于其他公司模型的參數而進行補全,進而有效的解決了資料孤島的問題,還能使得自己的模型更加優越;
聯邦學習的基本概念:
簡單來說就是對于每個公司,自己的模型M,通過參數傳遞,在第三方伺服器上建構一個大型的模型FM。使得FM的性能無限逼近于資料庫統一所建成的模型UM。用數學表示就是|UM-FM|<σ;
聯邦學習的分類:
聯邦學習模型總的來說包括三種,對應着三種不同的研究方向;
橫向聯邦學習:
适用領域:兩個公司的資料集合具有大緻相同的資料特征,但是使用者很不重疊;
意義:常用來取得特征相同的使用者資料進行建構聯合模型;
縱向聯邦學習:
适用領域:兩個公司具有大緻相同的使用者群體,但是資料特征并不相同;
意義:将相同使用者的資料進行聚合,來建構聯合模型;
遷移聯邦學習:
适用領域:兩個公司使用者群體和資料特征都不怎麼相同;
意義:進行遷移模型的建構,解決資料規模小和标簽樣本少的問題,進行資料補全;
聯邦學習的研究方向:
總的來說有三個問題方向:
1.隐私保護問題;
2.模型優化問題;
3.通信量的問題;