聯邦學習筆記
聯邦學習
聯邦學習顧名思義,有“聯”有“邦”,既然是“學習”那肯定離不開ai
而ai是靠資料來喂的,但是資料這個東西不是每個公司都有的,小型創業公司一般會存在資料孤島。
資料孤島:資料往往掌握在一些大型企業中,不進行共享,就是企業内部也會存在類似的問題,各個部門之間也是有可能不共享的,因為要涉及到資料隐私。總之,每個人都把資料藏的很嚴實。
本文參考【知乎】
定義
本質:聯邦學習本質上是一種分布式機器學習技術,或機器學習架構。
目标:聯邦學習的目标是在保證資料隐私安全及合法合規的基礎上,實作共同模組化,提升AI模型的效果。
前身:聯邦學習最早在 2016 年由谷歌提出,原本用于解決安卓手機終端使用者在本地更新模型的問題;
橫向聯邦學習
橫向聯邦學習的本質是樣本的聯合,适用于參與者間業态相同但觸達客戶不同,即特征重疊多,使用者重疊少時的場景,比如不同地區的銀行間,他們的業務相似(特征相似),但使用者不同(樣本不同)
縱向聯邦學習
縱向聯邦學習的本質是特征的聯合,适用于使用者重疊多,特征重疊少的場景,比如同一地區的商超和銀行,他們觸達的使用者都為該地區的居民(樣本相同),但業務不同(特征不同)。
縱向聯邦學習的本質是交叉使用者在不同業态下的特征聯合,比如商超A和銀行B,在傳統的機器學習模組化過程中,需要将兩部分資料集中到一個資料中心,然後再将每個使用者的特征join成一條資料用來訓練模型,是以就需要雙方有使用者交集(基于join結果模組化),并有一方存在label。
聯邦遷移學習
當參與者間特征和樣本重疊都很少時可以考慮使用聯邦遷移學習,如不同地區的銀行和商超間的聯合。主要适用于以深度神經網絡為基模型的場景。
遷移學習的核心是,找到源領域和目标領域之間的相似性,舉一個楊強教授經常舉的例子來說明:我們都知道在中國大陸開車時,駕駛員坐在左邊,靠馬路右側行駛。這是基本的規則。然而,如果在英國、香港等地區開車,駕駛員是坐在右邊,需要靠馬路左側行駛。那麼,如果我們從中國大陸到了香港,應該如何快速地适應 他們的開車方式呢?訣竅就是找到這裡的不變量:不論在哪個地區,駕駛員都是緊靠馬路中間。這就是我們這個開車問題中的不變量。 找到相似性 (不變量),是進行遷移學習的核心。
貌似是有一本專門講聯邦學習的書,等筆者找到看看再做補充。暫時先copy知乎高贊~
目前感覺聯邦學習這塊,做好資料加密,以及各種數倉的建設。