萬字長文！DeepMind科學家總結2021年的15個高能研究

新智元報道

編輯：LRS

【新智元導讀】2021年ML和NLP依然發展迅速，DeepMind科學家最近總結了過去一年的十五項亮點研究方向，快來看看哪個方向适合做你的新坑！

2021年，借助更強大的算力、資料和模型，機器學習和自然語言處理的技術發展依然十分迅速。

最近，DeepMind科學家Sebastian Ruder總結了15個過去一年裡高能、有啟發性的研究領域，主要包括：

Universal Models 通用模型

Massive Multi-task Learning 大規模多任務學習

Beyond the Transformer 超越Transformer的方法

Prompting 提示

Efficient Methods 高效方法

Benchmarking 基準測試

Conditional Image Generation 條件性圖像生成

ML for Science 用于科學的機器學習

Program Synthesis 程式合成

Bias 偏見

Retrieval Augmentation 檢索增強

Token-free Models 無Token模型

Temporal Adaptation 時序适應性

The Importance of Data 資料的重要性

Meta-learning 元學習

Sebastian Ruder是倫敦DeepMind的一名研究科學家。在Insight資料分析研究中心獲得自然語言處理和深度學習的博士學位，同時在柏林的文本分析初創公司AYLIEN擔任研究科學家。

1 通用模型

通用人工智能一直是AI從業者的目标，越通用的能力，代表模型更強大。

2021年，預訓練模型的體積越來越大，越來越通用，之後微調一下就可以适配到各種不同的應用場景。這種預訓練-微調已經成了機器學習研究中的新範式。

在計算機視覺領域，盡管有監督的預訓練模型如Vision Transformer的規模逐漸擴大，但隻要資料量夠大，在自監督情況下預訓練模型效果已經可以和有監督相匹敵了。

在語音領域，一些基于wav2vec 2.0的模型，如W2v-BERT，以及更強大的多語言模型XLS-R也已經展現了驚人的效果。

與此同時，研究人員也發現了新的大一統預訓練模型，能夠針對以前研究不足的模态對（modality pair）進行改進，如視訊和語言，語音和語言。

在視覺和語言方面，通過在語言模組化範式中設定不同的任務，對照研究（controlled studies）也揭示了多模态模型的重要組成部分。這類模型在其他領域，如強化學習和蛋白質結構預測也證明了其有效性。

鑒于在大量模型中觀察到的縮放行為（scaling behaviour），在不同參數量規模下報告性能已經成為常見的做法。然而，預訓練模型模型性能的提高并不一定能完全轉化為下遊任務的性能提升。

總之，預訓練的模型已經被證明可以很好地推廣到特定領域或模式的新任務中。它們表現出強大的few-shot learning和robust learning的能力。是以，這項研究的進展是非常有價值的，并能實作新的現實應用。

對于下一步的發展，研究人員認為将在未來看到更多、甚至更大的預訓練模型的開發。同時，我們應該期待單個模型在同一時間執行更多的任務。在語言方面已經是這樣了，模型可以通過将它們框定在一個共同的文本到文本的格式中來執行許多任務。同樣地，我們将可能看到圖像和語音模型可以在一個模型中執行許多共同的任務。

2 大規模多任務學習

大多數預訓練模型都是自監督的。他們一般通過一個不需要明确監督的目标從大量無标簽的資料中學習。然而，在許多領域中已經有了大量的标記資料，這些資料可以用來學習更好的表征。

到目前為止，諸如T0、FLAN和ExT5等多任務模型，已經在大約100個主要針對語言的任務上進行了預訓練。這種大規模的多任務學習與元學習密切相關。如果能夠接觸到不同的任務配置設定，模型就可以學習不同類型的行為，比如如何進行語境學習。

ExT5能夠實作大規模多任務學習。在預訓練期間，ExT5以文本到文本的形式對一組不同任務的輸入進行訓練，以産生相應的輸出。這些任務包括掩碼語言模組化、摘要、語義分析、閉卷問答、風格轉換、對話模組化、自然語言推理、 Winograd-schema風格的核心參考解析等。

最近研究的一些模型，如 T5和 GPT-3，都使用了文本到文本的格式，這也成為了大規模多任務學習的訓練基礎。是以，模型不再需要手工設計特定任務的損失函數或特定任務層，進而有效地進行跨任務學習。這種最新的方法強調了将自監督的預訓練與有監督的多任務學習相結合的好處，并證明了兩者的結合會得到更加通用的模型。

3 不止于Transformer

前面提到的預訓練模型大多數都基于Transformer的模型架構。在2021年，研究人員也一直在尋找Transformer的替代模型。

Perceiver（感覺器）的模型架構類似于Transformer的架構，使用一個固定次元的潛在數組作為基礎表示，并通過交叉注意力對輸入進行調節，進而将輸入擴充到高維。Perceiver IO 進一步擴充了模型的架構來處理結構化的輸出空間。

還有一些模型嘗試改進Transformer中的自注意力層，一個比較成功的例子就是使用多層感覺器(MLPs) ，如 MLP-Mixer和 gMLP模型。另外FNet 使用一維傅立葉變換代替自注意力來混合token層面的資訊。

一般來說，把一個模型架構和預訓練政策脫鈎是有價值的。如果 CNN 預訓練的方式與Transformer模型相同，那麼他們在許多 NLP 任務上都能得到更有競争力的性能。

同樣，使用其他的預訓練目标函數，例如ELECTRA-style的預訓練也可能會帶來性能收益。

4 提示

受到GPT-3的啟發，prompting對于NLP模型來說是一種可行的新範式。

提示符通常包括一個要求模型做出某種預測的模式，以及一個用于将預測轉換為類标簽的語句化程式。目前的方法有PET, iPET 和 AdaPET，利用提示進行Few-shot學習。

然而，提示并不是一種靈丹妙藥，模型的性能可能會因不同的提示不同而大不相同。并且，為了找到最好的提示，仍然需要标注資料。

為了可靠地比較模型在few-shot setting中的表現，有研究人員開發了新的評價程式。通過使用公共提示池(public pool of prompts, P3)的中的大量提示，人們可以探索使用提示的最佳方式，也為一般的研究領域提供了一個極好的概述。

目前研究人員僅僅觸及了使用提示來改進模型學習的皮毛。之後的提示将變得更加精細，例如包括更長的指令、正面和反面的例子以及一般的啟發法。提示也可能是将自然語言解釋納入模型訓練的一種更自然的方式。

5 高效方法

預訓練模型通常非常大，而且在實踐中效率往往不高。

2021年，出現了一些更有效的架構和更有效的微調方法。在模型方面，也有幾個新的、更有效的自注意力的版本。

目前的預訓練模型非常強大，隻需更新少量的參數就可以有效地進行調節，于是出現了基于連續提示和擴充卡等的更有效的微調方法迅速發展。這種能力還能通過學習适當的字首或适當的轉換來适應新的模式。

另外，還有一些其他路線來提高效率，例如建立更有效的優化器以及稀疏度的量化方法。

當模型不能在标準硬體上運作，或者成本過于昂貴時，模型的可用性就會大打折扣。為了保證模型在不斷擴大的同時，模型部署也能使用這些方法并且從中獲益，模型的效率需要不斷進步。

下一步的研究中，人們應該能夠更加容易地獲得和使用有效的模型和訓練方法。與此同時，社群将開發更有效的方法，來與大型模型接口，并有效地适應、組合或修改它們，而不必從頭開始預先訓練一個新模型。

6 基準測試

最近機器學習和自然語言處理模型的能力迅速提高，已經超過了許多基準的測量能力。與此同時，社群用于進行評估的基準越來越少，而這些基準來自少數精英機構。每個機構的資料集使用情況表明，超過50% 的資料集都可以認為來自12個機構。

以基尼指數衡量的資料集使用在機構和特定資料庫上的集中度有所增加。

是以，在2021年，可以看到很多關于最佳實踐，以及如何可靠地評估這些模型的未來發展的讨論。自然語言處理社群2021年出現的顯著的排行榜範式有: 動态對抗性評價（dynamic adversarial evaluation）、社群驅動評價（community-driven evaluation），社群成員合作建立評價資料集，如 BIG-bench、跨不同錯誤類型的互動式細粒度評價，以及超越單一性能名額評價模型的多元評價。此外，新的基準提出了有影響力的設定，如few-shot評價和跨域泛化。

還可以看到新的基準，其重點是評估通用的預訓練模型，用于特定的模式，如不同的語言（印度尼西亞語和羅馬尼亞語），以及多種模态和多語言環境，也應該更多地關注評價名額。

機器翻譯meta-evaluation顯示，在過去十年的769篇機器翻譯論文中，盡管提出了108個可供選擇的指，通常具有更好的人類相關性，但74.3% 的論文仍僅使用 BLEU。是以，最近如 GEM 和bidimensional排行榜建議對模型和方法進行聯合評估。

基準測試和評價是機器學習和自然語言處理科學進步的關鍵。如果沒有準确和可靠的基準，就不可能知道我們到底是在取得真正的進步，還是在過度适應根深蒂固的資料集和名額。

為了提高對基準測試問題的認識，下一步應該更加深思熟慮地設計新的資料集。對新模型的評估也應該少關注單一的性能名額，而是考慮多個次元，如模型的公平性、效率和魯棒性等。

7 條件圖像生成

條件性圖像生成，即基于文本描述生成圖像，在2021年取得了顯著的進步。

最近的方法不是像 DALL-E 模型那樣直接基于文本輸入生成圖像，而是利用像 CLIP 這樣的圖像和文本embedding聯合模型來引導 VQ-GAN 這樣的強大生成模型的輸出。

基于似然的擴散模型，逐漸消除信号中的噪聲，已經成為強大的新的生成模型，可以勝過 GANs 。通過基于文本輸入引導輸出，模型生成的圖像也逐漸接近逼真的圖像品質。這樣的模型也特别适用于圖像修複，還可以根據描述修改圖像的區域。

與基于GAN的模型相比，最近基于擴散的模型的取樣速度要慢得多。這些模型需要提高效率，以使它們對現實應用程式有用。這個領域還需要對人機互動進行更多的研究，以确定這些模型如何通過最佳方式和應用幫助人類創作。

8 用于科學的機器學習

2021年，機器學習技術在推進自然科學方面取得了一些突破。

在氣象學方面，降水臨近預報和預報的進展導緻了預報準确性的大幅度提高。在這兩種情況下，模型都優于最先進的基于實體的預測模型。

在生物學領域，AlphaFold 2.0以前所未有的精确度預測了蛋白質的結構，即使在沒有類似結構的情況下也是如此。

在數學方面，機器學習被證明能夠引導數學家的直覺去發現新的聯系和算法。

Transformer模型也已被證明能夠學習數學性質的差分系統，如訓練足夠的資料就能夠局部穩定。

使用循環中的模型（models in-the-loop）來幫助研究人員發現和開發新的進展是一個特别引人注目的方向。它既需要開發強大的模型，也需要研究互動式機器學習和人機互動。

9 程式合成

今年大型語言模型最引人注目的應用之一是代碼生成，Codex 作為 GitHub Copilot 的一部分，首次整合到一個主要産品中。

然而，對于目前的模型來說，生成複雜和長形式的程式仍然是一個挑戰。一個有趣的相關方向是學習執行或模組化程式，這可以通過執行多步計算得到改進，其中中間的計算步驟記錄在一個暫存器（scratchpad）中。

在實踐中，代碼生成模型在多大程度上改進了軟體工程師的工作流程，但仍然是一個有待解決的問題。為了真正發揮作用，這些模型ー類似于對話模型ー需要能夠根據新的資訊更新其預測，并需要考慮到局部和全局下的代碼上下文。

10 偏見

鑒于預訓練大模型的潛在影響，至關重要的是，這些模型不應包含有害的偏見，不應被濫用以産生有害的内容，而應當被可持續的使用。

一些研究人員對性别、特定種族群體和政治傾向等受保護屬性的偏見進行了調查，強調了這種模型的潛在風險。

然而，如果單純地從毒性模型中消除偏見可能會導緻對邊緣化群體相關文本的覆寫率降低。

到目前為止，在英語和預先訓練的模型以及特定的文本生成或分類應用方面，大多探讨了偏見。考慮到這些模型的預期用途和生命周期，我們還應緻力于在多語種環境中确定和減輕不同模式組合方面的偏見，以及在預訓練模型的使用的不同階段——預訓練後、微調後和測試時——的偏見。

11 檢索增強

檢索增強語言模型（Retrieval-augmented language models）能夠将檢索整合到預訓練和下遊任務中。

2021年，檢索語料庫已經擴大到一萬億個token ，并且模型已經能夠查詢網絡以回答問題。研究人員還發現了将檢索內建到預訓練語言模型中的新方法。

檢索增強使模型能夠更有效地利用參數，因為它們隻需要在參數中存儲更少的知識，而且可以進行檢索。它還通過簡單地更新用于檢索的資料實作了有效的域自适應。

未來，我們可能會看到不同形式的檢索，以利用不同類型的資訊，如常識性知識，事實關系，語言資訊等。檢索擴充也可以與更加結構化的知識檢索形式相結合，例如知識庫總體方法和開放式資訊抽取檢索。

12 無Token模型

自從像 BERT 這樣的預訓練語言模型出現以來，tokenize後的subword組成的文本已經成為 NLP 的标準輸入格式。

然而，子詞标記已經被證明在有噪聲的輸入中表現不佳，比如在社交媒體和某些類型的詞法中常見的拼寫錯誤（typos）或拼寫變化（spelling variation）。

2021年出現了新的token-free方法，這些方法直接使用字元序列。這些模型已經被證明比多語言模型性能更好，并且在非标準語言上表現得特别好。

是以，token-free可能是比subword-based Transformer更有前途的一種替代模型。

由于token-free模型具有更大的靈活性，是以能夠更好地對詞法進行模組化，并且能夠更好地概括新詞和語言的變化。然而，與基于不同類型的形态學或構詞過程的子詞方法相比，目前仍不清楚它們的表現如何，以及這些模型做出了什麼取舍。

13 時序适應性

模型在許多方面都是基于它們所受訓練的資料而存在偏差的。

在2021年，這些偏差受到越來越多的關注，其中之一是模型所訓練的資料時間架構存在偏差。鑒于語言不斷發展，新詞彙不斷進入論述，那些以過時資料為基礎的模型已經被證明概括起來相對較差。

然而，時序适應（ temporal adaptation）何時有用，可能取決于下遊任務。例如，如果語言使用中的事件驅動的變化與任務性能無關，那麼它對任務的幫助就可能不大。

未來，開發能夠适應新時間架構的方法需要擺脫靜态的預訓練微調設定，并需要有效的方法更新預訓練模型的知識，這兩種有效的方法以及檢索增強在這方面是有用的。

14 資料的重要性

資料長期以來一直是機器學習的關鍵組成部分，但資料的作用通常被模型的進步所掩蓋。

然而，考慮到資料對于擴充模型的重要性，人們的注意力正慢慢從以模型為中心轉移到以資料為中心。這當中關鍵的主題包括如何有效地建立和維護新的資料集，以及如何確定資料品質。

Andrew NG在NeurIPS 2021上舉辦了一個研讨會就研究了這個問題——以資料為中心的人工智能。

目前關于如何有效地為不同的任務建立資料集，確定資料品質等缺乏最佳實踐和原則性方法。關于資料如何與模型的學習互相作用，以及資料如何影響模型的偏差，人們仍然知之甚少。

15 元學習

元學習和遷移學習，盡管都有着Few-shot learning的共同目标，但研究的群體卻不同。在一個新的基準上，大規模遷移學習方法優于基于元學習的方法。

一個有前景的方向是擴大元學習方法，這種方法可以更高效利用記憶體的訓練方法相結合，可以提高元學習模型在現實世界基準測試上的性能。元學習方法也可以結合有效的适應方法，比如FiLM層[110] ，使得通用模型更有效地适應新的資料集。

參考資料：

https://ruder.io/ml-highlights-2021/

萬字長文！DeepMind科學家總結2021年的15個高能研究

繼續閱讀

ABM+機器學習：如何了解終局之戰？

報告：大語言模型自然語言處理崗位招聘數同比增111%

機器學習與傳統統計方法如何融合建構疾病風險預測模型？

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

BAT、位元組、快手等國内大模型TOP企業專家齊聚，2024全球機器學習技術大會前沿議題提前揭曉！

從業務視角解析人工智能機器學習領域經典算法和使用場景

諾貝爾實體學獎，為何授予機器學習？

兩名科學家因機器學習方面的貢獻分享2024年諾貝爾實體學獎

2024年諾貝爾實體學獎花落機器學習領域兩位AI先驅獲獎“并不令人意外”

推動人工智能機器學習技術“爆炸式”發展！解讀2024年諾貝爾實體學獎

2024年諾貝爾實體學獎為何要頒給機器學習？

40+議題揭曉，全球機器學習技術大會共話大模型浪潮下的前沿實踐！

密蘇裡大學林見團隊Mater.Horiz.：虛拟實驗室—利用機器學習進行3D列印熱塑性塑膠的模拟實驗

2024年諾貝爾實體學獎揭曉！推動人工智能機器學習技術“爆炸式”發展

黃仁勳：機器學習的關鍵在于“飛輪”，英偉達不談論市場佔有率

【期刊導讀】預測獲得HBsAg清除的慢B肝患者肝髒相關不良結局風險的機器學習新模型