天天看點

聯邦學習:聯邦學習基本概念

  早在21世紀初期,在自動化領域就在面臨一個問題就是“資訊孤島”,也就是在過程控制過程中,不同的控制環節采用了不同的自動控制系統并且采用和設計了自己專有的控制網絡技術,這導緻難以實作不同廠家控制裝置的開放的系統內建,系統具有較強的封閉性和“資訊孤島”現象,系統内大量有用資訊難以有效擷取并實作開放共享。通過工程技術的發展,在過程控制領域應用現場總線技術,有效的打破了“資訊孤島”,促進了過程控制領域的發展。

  到如今,随着先進通信技術、物聯網技術和電商平台的快速發展與崛起,海量的資料被采集起來,為各個團體所用,但是在解決實際問題的時候,需要多家機關協作,而各家機關的資料均為保密不能共享,是以現在出現了“資料孤島”的概念,為了解決這一問題,有學者提出了聯邦學習,并且很好的應用于工程實踐解決了一系列的實際問題。

  以下内容引用自:https://www.jianshu.com/p/f268baa0f21e

  今天來學習下最近比較博眼球的聯邦學習。應該有很多人聽過但是始終都沒懂啥是聯邦學習。很多同學應該也從網上搜集一些相關資料來學習,大概知道聯邦學習的作用主要是用來解決資料孤島,那他又是如何來解決資料孤島問題的?本系列專欄将從多元度介紹聯邦學習,包括背景、概念、技術原理等。

聯邦學習的概念

  聯邦機器學習(Federated machine learning/Federated Learning),又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是一個機器學習架構,能有效幫助多個機構在滿足使用者隐私保護、資料安全和政府法規的要求下,進行資料使用和機器學習模組化。聯邦學習作為分布式的機器學習範式,可以有效解決資料孤島問題,讓參與方在不共享資料的基礎上聯合模組化,能從技術上打破資料孤島,實作AI協作。谷歌在2016年提出了針對手機終端的聯邦學習,微衆銀行AI團隊則從金融行業實踐出發,關注跨機構跨組織的大資料合作場景,首次提出“聯邦遷移學習”的解決方案,将遷移學習和聯邦學習結合起來。據楊強教授在“聯邦學習研讨會”上介紹,聯邦遷移學習讓聯邦學習更加通用化,可以在不同資料結構、不同機構間發揮作用,沒有領域和算法限制,同時具有模型品質無損、保護隐私、確定資料安全的優勢。

  聯邦學習定義了機器學習架構,在此架構下通過設計虛拟模型解決不同資料擁有方在不交換資料的情況下進行協作的問題。虛拟模型是各方将資料聚合在一起的最優模型,各自區域依據模型為本地目标服務。聯邦學習要求此模組化結果應當無限接近傳統模式,即将多個資料擁有方的資料彙聚到一處進行模組化的結果。在聯邦機制下,各參與者的身份和地位相同,可建立共享資料政策。由于資料不發生轉移,是以不會洩露使用者隐私或影響資料規範。為了保護資料隐私、滿足合法合規的要求。

  聯邦學習有三大構成要素:資料源、聯邦學習系統、使用者。三者間關系如圖所示,在聯邦學習系統下,各個資料源方進行資料預處理,共同建立及其學習模型,并将輸出結果回報給使用者。

聯邦學習:聯邦學習基本概念

聯邦學習的分類 

  根據參與各方資料源分布的情況不同,聯邦學習可以被分為三類:橫向聯邦學習、縱向聯邦學習、聯邦遷移學習。

橫向聯邦學習

  在兩個資料集的使用者特征重疊較多而使用者重疊較少的情況下,我們把資料集按照橫向(即使用者次元)切分,并取出雙方使用者特征相同而使用者不完全相同的那部分資料進行訓練。這種方法叫做橫向聯邦學習。

聯邦學習:聯邦學習基本概念

  比如業務相同但是分布在不同地區的兩家企業,它們的使用者群體分别來自各自所在的地區,互相的交集很小。但是,它們的業務很相似,是以,記錄的使用者特征是相同的。此時,就可以使用橫向聯邦學習來建構聯合模型。

  橫向聯邦學習中多方聯合訓練的方式與分布式機器學習(Distributed Machine Learning)有部分相似的地方。分布式機器學習涵蓋了多個方面,包括把機器學習中的訓練資料分布式存儲、計算任務分布式運作、模型結果分布式釋出等,參數伺服器是分布式機器學習中一個典型的例子。參數伺服器作為加速機器學習模型訓練過程的一種工具,它将資料存儲在分布式的工作節點上,通過一個中心式的排程節點調配資料分布和配置設定計算資源,以便更高效的獲得最終的訓練模型。而對于聯邦學習而言,首先在于橫向聯邦學習中的工作節點代表的是模型訓練的資料擁有方,其對本地的資料具有完全的自治權限,可以自主決定何時加入聯邦學習進行模組化,相對地在參數伺服器中,中心節點始終占據着主導地位,是以聯邦學習面對的是一個更複雜的學習環境;其次,聯邦學習則強調模型訓練過程中對資料擁有方的資料隐私保護,是一種應對資料隐私保護的有效措施,能夠更好地應對未來愈加嚴格的資料隐私和資料安全監管環境。

縱向聯邦學習

  在兩個資料集的使用者重疊較多而使用者特征重疊較少的情況下,我們把資料集按照縱向(即特征次元)切分,并取出雙方使用者相同而使用者特征不完全相同的那部分資料進行訓練。這種方法叫做縱向聯邦學習。

聯邦學習:聯邦學習基本概念

  比如有兩個不同機構,一家是某地的銀行,另一家是同一個地方的電商。它們的使用者群體很有可能包含該地的大部分居民,是以使用者的交集較大。但是,由于銀行記錄的都是使用者的收支行為與信用評級,而電商則保有使用者的浏覽與購買曆史,是以它們的使用者特征交集較小。縱向聯邦學習就是将這些不同特征在加密的狀态下加以聚合,以增強模型能力的聯邦學習。目前機器學習模型如邏輯回歸、決策樹等均是建立在縱向聯邦學習系統架構之下的。

聯邦遷移學習

  在兩個資料集的使用者與使用者特征重疊都較少的情況下,我們不對資料進行切分,而可以利用遷移學習來克服資料或标簽不足的情況。這種方法叫做聯邦遷移學習。

聯邦學習:聯邦學習基本概念

  比如有兩個不同機構,一家是位于中國的銀行,另一家是位于美國的電商。由于受到地域限制,這兩家機構的使用者群體交集很小。同時,由于機構類型的不同,二者的資料特征也隻有小部分重合。在這種情況下,要想進行有效的聯邦學習,就必須引入遷移學習,來解決單邊資料規模小和标簽樣本少的問題,進而提升模型的效果。

聯邦學習:聯邦學習基本概念