天天看點

資料共享時代的資料模組化——遷移學習與聯邦學習

作者:浙江鵬信科技

随着大資料技術的廣泛應用,越來越多的公司與個人參與到技術與資料的共享中。大資料時代下的資料共享既是驅動力,也造就了資料安全隐患。如何在資料共享的前提下,保證資料安全與資産保值,是目前衆多企業重點關注的課題之一。

現階段很多公司都需要訓練一些行業通用模型,但主要問題是缺少行業資料。針對這種情況,遷移學習與聯邦學習方法應勢而生。

一、遷移學習應用介紹

遷移學習最初主要應用于一些公共資料的特征提取,作為一些新提出的算法模型的預訓練模型出現。研究者與開發者發現,使用遷移學習進行一些其他相關的工作模組化時,對原任務的精度會有顯著提升,是以在訓練模型時,網絡的權重拟合不再僅限于本任務的資料與内容,而是會聚焦于本任務所遭遇的問題與阻礙的解決。

BERT是最典型的遷移學習的應用,目前已應用到很多需要語言模型的領域。由于BERT的網絡極其龐大,其網絡權重的拟合變得極其困難,主要展現在算力要求和資料要求上。而BERT在被提出時其論文作者就考慮到了這個問題,甚至于其論文就主要聚焦于遷移學習本身。

BERT采用龐大的語料資料庫進行兩種任務的訓練:

1、Masked Language Modeling

BERT是一個深度雙向模型,此模型有效地從标記處的上下文中擷取捕獲資訊。BERT的第一個任務是預測被遮擋的單詞。面對随機遮擋一個或者多個單詞的場景,神經網絡判斷被遮擋的單詞是什麼,例如:

資料共享時代的資料模組化——遷移學習與聯邦學習

2、Next Sentence Prediction

Masked Language Model是為了了解詞與詞之間的關系。另外,BERT還接受了Next Sentence Prediction訓練,用于了解句與句之間的關系。給定兩個句子,句A和句B,判斷句B在語料庫中是否為句A之後的下一個句子,例如:

資料共享時代的資料模組化——遷移學習與聯邦學習

以上兩個訓練任務分别從不同的兩個角度入手,前者側重于文本特征雙向的提取,擷取基礎的文本詞向量特征,後者聚焦于句向量之間的相關性,兩者互相結合,便可有效地提取文本特征。例如:

資料共享時代的資料模組化——遷移學習與聯邦學習

BERT的訓練任務簡單易懂,但訓練成本很高,是以預訓練模型被提出。預訓練模型即使不進行這兩種高開銷的預訓練任務,也可以得到一定精度的效果。企業根據應用場景再使用自己的資料進行finetune微調訓練,便可得到業務上可用的資料模型。不同領域,不同行業,不同訓練角度的資料集訓練出來的權重,卻可以實作高精度的特征提取,這就是遷移學習的魅力。

二、聯邦學習應用介紹

遷移學習的主要發起方是資金雄厚的大廠或者專注研發的團隊,對于注重業務的大部分廠商,無法作為這種任務的主導者,隻能被動選擇。聯邦學習的提出,讓一些中小企業也能夠參與到模型的建立中,并形成自己的資料資産與模型資産。

聯邦學習本身主要有三種類型:橫向學習,縱向學習與遷移學習。

1、橫向學習

當使用者a與使用者b的資料特征類似,但使用者群體多有不同時,可以選擇相同特征部分的兩方使用者資料進行加密,然後進行聯邦學習。

資料共享時代的資料模組化——遷移學習與聯邦學習

2、縱向學習

當使用者a與使用者b的使用者群體類似,但資料特征多有不同時,可以選擇相同使用者部分的兩方特征資料進行加密,然後進行聯邦學習。

資料共享時代的資料模組化——遷移學習與聯邦學習

3、遷移學習

當使用者a與使用者b的使用者群體與資料特征均多有不同時,可以選擇分别進行模組化,并進行遷移學習來訓練共同的網絡權重。

資料共享時代的資料模組化——遷移學習與聯邦學習

三、發展趨勢

遷移學習的引入加快了算法有效落地的速度,提高了整體行業的基準水準,降低了參與者的門檻,未來也必将成為學術論文的主流方法。而聯邦學習是一種在多參與方或多計算結點之間開展的一種高效率的機器學習方法,它能夠保障大資料交換時的資訊安全、保護終端資料和個人資料隐私、保證合法合規。其中,聯邦學習使用的機器學習算法不局限于神經網絡,還包括随機森林等重要算法。聯邦學習正在逐漸成為下一代人工智能協同算法和協作網絡的基礎,并作為新的驅動力促進大資料共享時代的發展。

繼續閱讀