天天看點

微軟朱晨光:預訓練模型下一步怎麼走?突破PLM的“不可能三角”

機器之心報道

編輯:杜偉、陳萍

文章雖然不長短短四頁,卻簡明地涵蓋了 PLM 過去的一系列工作。

近年來,大規模預訓練語言模型(PLM)已經顯著提升了各種 NLP 任務的性能。從 BERT 和 GPT-2 開始,自監督預訓練 + 監督式微調的範式取得了巨大的成功,重新整理了語義相似度、機器閱讀了解、常識推理和文本摘要等很多 NLP 領域的 SOTA 結果。此外,中等規模的 PLM 實作了廣泛和快速的模型微調和調整。

但是,在很多實際尤其是新穎的 NLP 場景中,受限于預算或者時間,用于有效微調的标注資料極其有限。這種情況刺激了零樣本和小樣本 NLP 模型的發展。從 GPT-3 開始,當僅給出任務描述以及可能的一些手動示例時,超級大規模 PLM(SL-PLM)在一般 NLP 任務上顯示出了更強的性能。這種能力在以往的中等規模 PLM 中沒有觀察到。然而,SL-PLM 的前所未有的規模在很大程度上也限制了它們的廣泛應用。小的科技公司和研究人員很難獲得加載這些模型所需要的足夠的計算資源,更不用說高效的部署和可能的微調了。

近日,微軟認知服務研究小組(Cognitive Services Research,CSR)的兩位研究者在其新論文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中對未來的預訓練語言模型進行了展望。

論文一作朱晨光(Chenguang Zhu)大學畢業于清華姚班,2016 年博士畢業于斯坦福大學。之後,他進入微軟工作,現任 CSR 首席研究經理。

論文位址:https://arxiv.org/pdf/2204.06130.pdf

他們首先根據不可能三角(Impossible Triangle)的概念詳細闡述目前使用 PLM 模型的難點,這裡的不可能三角包括中等模型大小、SOTA 小樣本學習能力和 SOTA 微調能力。研究者認為,所有現有的 PLM 模型都缺少不可能三角中的一個或多個屬性。為了彌補 PLM 缺失的這些屬性,人們提出了各種技術,例如知識蒸餾、資料增強和提示學習,這些不可避免地對 PLM 在真實場景中的應用帶來了額外的工作。

針對這些情況,研究者對未來 PLM 的研究方向提出了自己的見解以實作不可能三角,并将任務分解成了三個關鍵階段。

不可能三角

該研究用「不可能三角」這個經濟學理論來形容 PLM 研究目前遇到的障礙,如圖 1 所示。這個三角描述了高效使用 PLM 三個關鍵屬性:P1 表示模型尺寸,P2 表示 SOTA 小樣本學習能力,P3 表示 SOTA 自監督學習能力。這三個要素對應 PLM 在實際應用中的三個需求:P1 用于使用合理數量的計算資源進行高效部署;P2 用于标記資料為零或很少的場景;P3 針對标注資料比較豐富的場景。

微軟朱晨光:預訓練模型下一步怎麼走?突破PLM的“不可能三角”

不可能三角存在的一個潛在原因是,在目前階段,隻有當 PLM 規模足夠大、容量足夠高,小樣本學習能力才會出現。雖然有研究設計出了中等規模的 PLM(例如 iPET),以實作比 GPT-3 更好的小樣本學習能力,但該模型被後來的 SL-PLM 超越,之後随着模型的不斷擴充,零樣本或小樣本學習性能不斷得到提高。例如,與具有 8B 和 62B 參數的模型變體相比,具有 540B 參數的 PaLM 在許多任務上的準确率都有了大幅提升。是以,在保持卓越的監督學習能力的同時,開發具有 SOTA 零 / 小樣本學習性能的中等規模模型仍然是一個巨大的挑戰。

盡管沒有 PLM 實作不可能三角中的所有三個屬性,但它們中的許多已經獲得了其中的一兩個功能:

中等規模 PLM(P1 + P3):這些語言模型具有中等規模,參數小于 10 億,能夠有效地進行調優和部署。這類模型在一般的 NLP 任務中(例如 GLUE 基準、文本摘要、open-domain 問答、嘗試推理)可以達到 SOTA 性能。然而,這類模型通常具有相對較弱的零 / 小樣本學習能力,這意味着使用這些模型取決于目标域中足夠的标記資料。

超大規模 PLM(P2):這些語言模型具有超大規模,參數 1 到 10000 億,并且在大規模資料上進行了預訓練。例如,具有 5400 億參數的 PaLM 在具有 7800 億個 token 的不同文本語料庫上進行了預訓練。當具有 prompt 任務描述和一些少量的輸入 - 輸出樣本對時,這類模型在一般的零 / 小樣本 NLP 任務上實作了 SOTA 性能。然而,一般而言,SL-PLM 的零 / 小樣本性能低于有監督訓練模型的性能;在微調之後,許多 SL-PLM 的性能仍然低于最佳微調的中等規模的 PLM,可能是由于這類模型尺寸巨大難以微調。

目前都有哪些彌補方法

由于不可能三角關系的存在,研究者采取不同措施來解決。可總結如下:

巨大的模型規模(缺少 P1)。當 SL-PLM 顯示出極好的小樣本學習能力以及微調後性能強大,就會發生這種情況。為了獲得性能與 SL-PLM 相似的中等大小的模型,一種常見的做法是知識蒸餾 (KD)。在 KD 中,較大的模型充當教師,較小的模型是學生,學生從教師的預測分布或參數中學習。知識蒸餾在建立更有效的模型方面非常有效,但性能卻略有降低。然而,知識蒸餾仍然存在兩個問題:首先,學生模型很難達到與老師模型相同的性能;其次,SL-PLM 大尺寸阻礙了推理,使其作為教師模型不友善使用。

較差的零 / 小樣本性能(缺少 P2):這對于中等規模的 PLM 最常見,它們在微調後可以實作 SOTA 性能,但具有相對較低的零 / 小樣本學習能力。當缺少足夠的标記資料時,部署這樣的模型是比較好的。資料增強是一種常用方法,通過從其他模型或噪聲注入生成僞标簽和僞資料執行個體,該模型可以利用這些額外資料進行有效的監督訓練。然而,僞資料品質的變化和不同任務中資料類型的多樣性對普遍适用的解決方案提出了挑戰。

監督訓練性能較差(缺少 P3):這在微調 SL-PLM 時很典型,在這種情況下,計算資源有限或訓練資料的數量不足以調整一個超大型模型。一個典型的解決方案是 prompt 學習。可以利用 hard prompt(即離散文本模闆)或 soft prompt(即連續模闆),以便在微調期間僅更新 hard prompt 詞或 soft prompt 參數。這已被證明對于提高給定标記資料的 SL-PLM 的性能非常有效。但是,但這種方式對 prompt 的設計非常敏感,同時效果不如有監督學習的中等規模 PLM。

三個關鍵階段

雖然目前 NLP 模型存在不可能三角,研究者認為它可以通過以下三個階段來解決。

階段 1:PLM 的開發目标是實作三角中的一些期望屬性,同時對其他缺失的屬性進行改進。例如,具備 SOTA 監督學習能力的中等規模的模型可以提升其小樣本學習性能;或者具備小樣本學習能力的 SL-PLM 被壓縮成具有更強監督學習性能的更小模型。

階段 2:開發在少數 NLP 任務之一(如 NER 或文本摘要)上實作所有三種期望屬性的 PLM。為此,我們可以利用目标任務的獨特屬性,例如性能對訓練資料規模的依賴更少、零 / 小樣本和監督學習性能之間的差距更小等。

階段 3:在階段 1 和階段 2 進展的基礎上,開發在一般 NLP 任務上實作所有三種期望屬性的 PLM。潛在的方法包括使用更大的資料預訓練中等規模的模型、開發更好的知識蒸餾、泛化資料增強方法等。

一旦 PLM 模型在一般 NLP 任務上具備了不可能三角的所有三種屬性,它将改變 NLP 研究和應用的整個局面,促進快速、高效和高品質的模型開發和部署。

繼續閱讀