随着大資料技術的廣泛應用，越來越多的公司與個人參與到技術與資料的共享中。大資料時代下的資料共享既是驅動力，也造就了資料安全隐患。如何在資料共享的前提下，保證資料安全與資産保值，是目前衆多企業重點關注的課題之一。

現階段很多公司都需要訓練一些行業通用模型，但主要問題是缺少行業資料。針對這種情況，遷移學習與聯邦學習方法應勢而生。

一、遷移學習應用介紹

遷移學習最初主要應用于一些公共資料的特征提取，作為一些新提出的算法模型的預訓練模型出現。研究者與開發者發現，使用遷移學習進行一些其他相關的工作模組化時，對原任務的精度會有顯著提升，是以在訓練模型時，網絡的權重拟合不再僅限于本任務的資料與内容，而是會聚焦于本任務所遭遇的問題與阻礙的解決。

BERT是最典型的遷移學習的應用，目前已應用到很多需要語言模型的領域。由于BERT的網絡極其龐大，其網絡權重的拟合變得極其困難，主要展現在算力要求和資料要求上。而BERT在被提出時其論文作者就考慮到了這個問題，甚至于其論文就主要聚焦于遷移學習本身。

BERT采用龐大的語料資料庫進行兩種任務的訓練：

1、Masked Language Modeling

BERT是一個深度雙向模型，此模型有效地從标記處的上下文中擷取捕獲資訊。BERT的第一個任務是預測被遮擋的單詞。面對随機遮擋一個或者多個單詞的場景，神經網絡判斷被遮擋的單詞是什麼，例如：

2、Next Sentence Prediction

Masked Language Model是為了了解詞與詞之間的關系。另外，BERT還接受了Next Sentence Prediction訓練，用于了解句與句之間的關系。給定兩個句子，句A和句B，判斷句B在語料庫中是否為句A之後的下一個句子，例如：

以上兩個訓練任務分别從不同的兩個角度入手，前者側重于文本特征雙向的提取，擷取基礎的文本詞向量特征，後者聚焦于句向量之間的相關性，兩者互相結合，便可有效地提取文本特征。例如：

BERT的訓練任務簡單易懂，但訓練成本很高，是以預訓練模型被提出。預訓練模型即使不進行這兩種高開銷的預訓練任務，也可以得到一定精度的效果。企業根據應用場景再使用自己的資料進行finetune微調訓練，便可得到業務上可用的資料模型。不同領域，不同行業，不同訓練角度的資料集訓練出來的權重，卻可以實作高精度的特征提取，這就是遷移學習的魅力。

二、聯邦學習應用介紹

遷移學習的主要發起方是資金雄厚的大廠或者專注研發的團隊，對于注重業務的大部分廠商，無法作為這種任務的主導者，隻能被動選擇。聯邦學習的提出，讓一些中小企業也能夠參與到模型的建立中，并形成自己的資料資産與模型資産。

聯邦學習本身主要有三種類型：橫向學習，縱向學習與遷移學習。

1、橫向學習

當使用者a與使用者b的資料特征類似，但使用者群體多有不同時，可以選擇相同特征部分的兩方使用者資料進行加密，然後進行聯邦學習。

2、縱向學習

當使用者a與使用者b的使用者群體類似，但資料特征多有不同時，可以選擇相同使用者部分的兩方特征資料進行加密，然後進行聯邦學習。

3、遷移學習

當使用者a與使用者b的使用者群體與資料特征均多有不同時，可以選擇分别進行模組化，并進行遷移學習來訓練共同的網絡權重。

三、發展趨勢

遷移學習的引入加快了算法有效落地的速度，提高了整體行業的基準水準，降低了參與者的門檻，未來也必将成為學術論文的主流方法。而聯邦學習是一種在多參與方或多計算結點之間開展的一種高效率的機器學習方法，它能夠保障大資料交換時的資訊安全、保護終端資料和個人資料隐私、保證合法合規。其中，聯邦學習使用的機器學習算法不局限于神經網絡，還包括随機森林等重要算法。聯邦學習正在逐漸成為下一代人工智能協同算法和協作網絡的基礎，并作為新的驅動力促進大資料共享時代的發展。

資料共享時代的資料模組化——遷移學習與聯邦學習

一、遷移學習應用介紹

二、聯邦學習應用介紹

三、發展趨勢

繼續閱讀

淺談最近釋出的金融行業多方安全計算的技術标準01 MPC作為這個規範的技術主體 02 具體要求聯合模組化在金融領域的案例

聯邦學習：分布式計算的新範式

論文閱讀筆記《Dense Classification and Implanting for Few-Shot Learning》

智能數字圖像處理之FastRCNN（pytorch）代碼解讀之train_mobilenet.py

[PaperNotes]2017.Algorand: Scaling byzantine agreements for cryptocurrenciesAlgorand: Scaling byzantine agreements for cryptocurrencies

python子程序:在python程式代碼中調用另一段python程式代碼檔案(啟動子程序)python子程序:在一段Python程式(python代碼段)中調用另一Python程式(python代碼檔案)

【遷移學習】【應用】柏油路路面破損檢測基于遷移學習的無重神經網絡在柏油路路面破損檢測中的應用20190115 IJAERS

一步步完整實作VGGNet分類自己資料集（pytorch ,自己圖像資料集準備，前一篇部落格的細化）

遷移學習相關資料Transfer learning applications

淺談資料倉庫建設中的資料模組化方法

2021數學模組化數模國賽C題思路

2021數學模組化B題及思路

FATE學習：跟着日志讀源碼（八）upload任務task finsih階段綜述執行細節

了解次元資料倉庫——事實表、次元表、聚合表

企業架構——資料架構之資料模組化

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法