天天看點

了解聯邦學習

聯邦學習筆記

聯邦學習

聯邦學習顧名思義,有“聯”有“邦”,既然是“學習”那肯定離不開ai

而ai是靠資料來喂的,但是資料這個東西不是每個公司都有的,小型創業公司一般會存在資料孤島。

資料孤島:資料往往掌握在一些大型企業中,不進行共享,就是企業内部也會存在類似的問題,各個部門之間也是有可能不共享的,因為要涉及到資料隐私。總之,每個人都把資料藏的很嚴實。

本文參考【知乎】

定義

本質:聯邦學習本質上是一種分布式機器學習技術,或機器學習架構。

目标:聯邦學習的目标是在保證資料隐私安全及合法合規的基礎上,實作共同模組化,提升AI模型的效果。

前身:聯邦學習最早在 2016 年由谷歌提出,原本用于解決安卓手機終端使用者在本地更新模型的問題;

橫向聯邦學習

橫向聯邦學習的本質是樣本的聯合,适用于參與者間業态相同但觸達客戶不同,即特征重疊多,使用者重疊少時的場景,比如不同地區的銀行間,他們的業務相似(特征相似),但使用者不同(樣本不同)

縱向聯邦學習

縱向聯邦學習的本質是特征的聯合,适用于使用者重疊多,特征重疊少的場景,比如同一地區的商超和銀行,他們觸達的使用者都為該地區的居民(樣本相同),但業務不同(特征不同)。

縱向聯邦學習的本質是交叉使用者在不同業态下的特征聯合,比如商超A和銀行B,在傳統的機器學習模組化過程中,需要将兩部分資料集中到一個資料中心,然後再将每個使用者的特征join成一條資料用來訓練模型,是以就需要雙方有使用者交集(基于join結果模組化),并有一方存在label。

聯邦遷移學習

當參與者間特征和樣本重疊都很少時可以考慮使用聯邦遷移學習,如不同地區的銀行和商超間的聯合。主要适用于以深度神經網絡為基模型的場景。

遷移學習的核心是,找到源領域和目标領域之間的相似性,舉一個楊強教授經常舉的例子來說明:我們都知道在中國大陸開車時,駕駛員坐在左邊,靠馬路右側行駛。這是基本的規則。然而,如果在英國、香港等地區開車,駕駛員是坐在右邊,需要靠馬路左側行駛。那麼,如果我們從中國大陸到了香港,應該如何快速地适應 他們的開車方式呢?訣竅就是找到這裡的不變量:不論在哪個地區,駕駛員都是緊靠馬路中間。這就是我們這個開車問題中的不變量。 找到相似性 (不變量),是進行遷移學習的核心。

貌似是有一本專門講聯邦學習的書,等筆者找到看看再做補充。暫時先copy知乎高贊~

目前感覺聯邦學習這塊,做好資料加密,以及各種數倉的建設。