天天看點

解讀預訓練大模型的2021年:人們正在逐漸馴服這些“龐然大物”

作者 | 曾冠榮,OPPO小布智能中心 NLP算法工程師

審校 | 劉燕

寶劍鋒從磨砺出,預訓練大模型持續發力。

概 述

距離 BERT 釋出至今已經過了 2 年多,以預訓練語言模型為核心的技術也層出不窮,已經從預訓練預研模型以 pre-training 為基礎,以 fine tuning 為調試模式的傳統模式,更新為以更為多樣有效地預訓練方式為基礎,以編譯、引擎、硬體優化為性能支撐,以學習存儲、推理預測機理的理論研究基礎的一套應對 NLP 甚至更多場景的完整技術體系,形成從學術界的前沿研究逐漸落地到工業界的可靠技術。

對内,預訓練模型的知識表示和學習機理逐漸明确,通過對比學習等方式讓預訓練模型更好地學習到更通用或更加專注業務的知識;對外,更靈活的任務定制化和優化能讓具體業務場景問題處理的更好,甚至成功出圈,與 CV 等技術攜手邁進,處理更多複雜的多模态問題。

回顧和總結

知識表示和學習機理進一步創新突破

要想進一步提升預訓練模型對知識的掌握能力,斷然不能把它當做黑盒使用。在 2021 年,人們對預訓練模型自身有了很多深入的研究,有其語義空間的特性,也有創新的預測和學習方法,在這些研究的引導下,預訓練模型無論是擷取知識還是表達知識的能力都得到了大幅提升。

2021 年初最受關注的應該是 BERT 表征空間的分析和研究,該方向其實從 2020 年就已經開始(BERT-flow),比較統一的觀點是 BERT 語義的編碼表征會出現“坍縮”現象以及“各向異性”現象,不利于語義的表征和下遊的計算。

更有研究指出表征效果甚至不如 GloVe,以此為突破口,研究者們開始進一步探究預訓練模型的預測機理和預測空間特點,并設計了一系列方案讓語義編碼分布更符合應用需求。

蘇劍林提出了 BERT-whitening(Su 等,2021),針對“各向異性”問題,提出白化的方式将 BERT 的預測結果轉化為各向同性語義空間,并通過實驗展示了各向同性空間對表征能力的提升;

美團在 ACL2021 上提出了 ConSERT(Yan 等,2021),分析發現 BERT 對句子的表征會集中在一個比較小的區域,主要原因是高頻詞會在預測過程中主導句子表征任務,進而影響句子表征,文章通過構造增強樣本進行對比學習的方式弱化高頻詞主導的因素,進而 BERT 的表征能力;

ACL2021 的 best paper 花落位元組跳動等的聯合項目(Xu 等,2021),論文從詞表入手,通過資訊論的方式篩選最适合的詞典大小,實驗顯示通過篩選的方式降低 70% 的詞典大小能獲得 0.5BLEU 的提升,筆者認為這一結論和 ConSERT 中對高頻詞主導句子表征任務具有很高的聯系。

今年 7 月,一篇有關 Prompt 的綜述得到了廣泛關注(Liu 等,2021),Prompt 是一種類似“完形填空”的任務,将給定句子轉化為一個被“挖空”的模闆句,然後通過模型的方式預測該空格内需要填入的内容來完成預測任務,實質上是将 NLP 的任務統一為 MLM 任務,同時因為預訓練語言模型的訓練方式就以 MLM 任務為主,這無疑讓多樣的預訓練模型更适配複雜多變的 NLP 任務。

Prompt 的出現一方面為預訓練模型本身的學習提供了新的思路,另一方面也讓使用預訓練模型的下遊任務有了新的調試方法,可見該方式具有重要意義。

此後的 2021 年下半年乃至年末 ACL2022 剛公布的投搞論文裡,出現了大量有關 Prompt 的研究,說明 Prompt 已經成為一個新的研究熱點。當然,針對 Prompt 也有一些批評的聲音,如目前 Prompt 對模闆構造形式過于敏感,難以調試等,相信在日後的工作研究中将會找到解決方案。

此外,人們并不滿足于讓預訓練語言模型學習基本的語言資訊,還希望能夠學習到更多抽象、綜合的“知識”。

知識圖譜方興未艾,其可解釋性、準确性的優勢令其在 NLP 領域同樣大放光彩,然而其建構結構的複雜性、靈活性均不足,這些缺點正好是預訓練語言模型的優勢,是以兩者結合将會産生強烈的“化學”反應。

EMNLP2021 上綜述(Safavi 等,2021)詳細分析了知識圖譜和預訓練語言模型的優缺點,總結并整理了近年來多種将知識點輸送到預訓練語言模型的方法。該文章指出,一方面希望能有更多強大的語言模型和知識庫融合,另一方面也希望更多的知識庫資源能夠從語言模型中産生,兩者能形成更好的共同發展态勢。

随着對預訓練模型的深入了解,預訓練模型的知識學習和表征的機理逐漸明确,人們得以更加順利地往模型裡注入需要它學習的知識。在這些知識的加持下,對複雜任務的應對能力的到了大幅提升。

對比學習、自監督和知識增強

對比學習在 CV 中并非是一個老概念,至今仍有很大的探索空間。

CVPR2020 的 Circle Loss、ICML2020 的 SimCLR 都引起了很大反響,而在 2021 年,以可遷移性、知識表征等為出發點的研究大邁步前進,對比學習作為 NLP 下的“舶來品”得到了很多嘗試。

随之而來的自監督和知識增強研究也逐漸深入,資料增強能從資料樣本中自己生成新的樣本,用以進行對比學習訓練,整個閉環流程則形成了一套自監督學習方案。這種自監督的學習模式,能讓衆多無資料、少資料的場景得以開始嘗試引入預訓練模型,也能讓多資料的場景得到更好的适配,進而大幅降低遷移成本。

美團的 Consert(Yan 等,2021)對 BERT“坍縮”問題的解決方案源于對比學習,因為對比學習能讓語義空間的分布更接近實際語義遠近的分布。但要進行對比學習,必須要構造一定數量的對比學習樣本,資料增強稱為構造對比學習樣本的重要途徑,作者進行一系列實驗論證這一關系和效果,并對多種資料增強方式做了大量實驗;

SimCSE(Gao 等,2021)通過 dropout 的方式構造模糊的正樣本用于進行對比學習,同樣值得注意的是,這裡的損失函數是 SimCLR 的 NT-Xent,能引入 L2 正則做歸一化并使用溫度參數拉開正負樣本之間的距離;

R-drop(Liang 等,2021)則更進一步,采用兩次 dropout 的方式構造模糊樣本,将 dropout 增強樣本的方式從對比和表征學習推廣到更多 NLP 任務中,論文中對多個任務進行了實驗,結果顯示能有效提升模型的魯棒性。

近期,OPPO 小布助手對登頂千言文本相似度的技術方案進行了解釋,提到了對 ASoftmax、AMSoftmax、ArcFace 等對比損失函數的使用,有利于形成類内更彙聚,類間更可分的語義表征空間。

以對比學習為中心,多種增強方法為工具的方式能進一步提升預訓練模型的語義了解和表征能力,增強方法的深入能讓模型自監督成為可能,讓對比學習對樣本,尤其是正樣本的依賴降低,資料依賴的降低勢必讓模型對少樣本甚至無樣本任務的适應性提升,模型能更好地完成這類型的任務,這将讓預訓練模型落地的成本再降低一個層次。

預訓練模型的業務定制優化和應用

預訓練語言模型的出發點是一個通用的語言模型,具有語義的解析能力,可以了解為一個處理語言的神經中樞。從第一個預訓練語言模型 BERT 釋出至今,已經在多個熱門任務下得到應用,逐漸從一種“潮流”變成前沿技術的“基本操作”。

以機器翻譯為例,ACL2021 中位元組跳動 AI lab 的一篇“使用對比學習任務對機器翻譯任務進行優化”的論文受到關注(Pan 等,2021),文章提出的 mRASP2 在多語言翻譯是在 multilingual Transformer 模型的基礎上進行改進的,而且在實驗階段也對比了 mBART、XLM 等優秀的預訓練模型,這表明預訓練模型已經在機器翻譯領域内處于至關重要的地位。

同樣值得關注的還有,李磊和王明軒在 ACL2021 上對預訓練模型在神經機器翻譯領域的使用進行了非常詳細的講解,綜述和教程的提出往往意味着技術的成熟和體系化,可見機器翻譯領域對預訓練模型的依賴性很高,預訓練模型已經成為了基礎的關鍵技術。

除此之外,預訓練模型也成為大系統中的一部分,發揮着其語義了解的優勢。

KDD21 中,Facebook 在它的語義子產品中使用了自己提出的 XLM Encoder 用作于語義優化(Liu 等,2021),文章還對 XLM Encoder 的使用做了消融實驗,結果顯示效果十分顯著;

同樣是在 KDD21,淘寶的電商搜尋方案中(Li 等,2021),query 了解子產品裡使用了 Transformer,從詞、n-gram 等多個粒度對 query 資訊進行了解析。而由于電商場景的搜尋通常帶有一定的推薦性質,作者将使用者行為和 query 了解得到的資訊進行了充分融合,形成了完整的“User Tower”,用以對使用者目前、短期、長期等多個粒度的需求進行全面了解,為給使用者傳回精準的結果提供紮實的基礎。在這裡可以充分看到,在現實應用場景下,預訓練模型的使用方式已經非常靈活,其一可以提現多粒度的資訊,其二則可以通過組裝的方式融入到業務巨型模型中。

當然,PTM 作為重要的技術手段,也已經被用在大量的場景中。除了當下熱門的任務和領域外,在很多小領域中,預訓練語言模型都在發揮作用。并且經過特定的适配,在小領域下 BERT 仍能有很大收益,如複旦大學在 2021 年提出的 SpellBERT 在糾錯上的應用,SpellBERT 旨在解決中文文本中視覺或語音相似的錯誤,是以加入了部首和拼音作為特征,并采用了類似掩碼的訓練方式,在 OCR 等任務中獲得了 SOTA 的效果。

目前多模态正是研究熱點,語言是重要的溝通技術,代表 NLP 能力的預訓練模型也發揮着重要作用。

百度提出的 UNIMO(Li 等,2021)創新性地提出了一個統一多模态和單模态的預訓練模型,既能解決單模态問題,也可以解決多模态問題。其核心點在于使用了一種基于對比學習的 Cross-Modal Contrastive Learning(CMCL)任務完成了圖檔和文本資訊表征的對齊,讓圖檔和文本資訊的表征在統一架構下都得到加強,并重新整理了多個生成任務的 sota。

觀點分析和摘要是一項十分實用的技術,ACL2021 中一項被稱為 MultimodalSum 的技術被提出,使用自監督的方式解決了該問題,該架構在 Yelp 和 Amazon 資料集取得了 SOTA 的成績。

可見無論是工業界還是科研界,對預訓練模型的使用方式逐漸靈活,能從預訓練模型中拆解出适合任務的部分并組裝到自己的實際任務模型中,說明人們正在逐漸馴服這個“龐然大物”,讓它更好地在現實中發揮作用。

預訓練大模型的性能優化

從壓縮、剪枝、蒸餾到編譯、引擎、硬體的優化,預訓練模型的優勢得到更加充分的釋放。

時至今日,對預訓練大模型的性能優化仍未終止,在學界,仍有大量的研究在預訓練模型的落地能力上努力,壓縮、剪枝、蒸餾的工作仍起到重要的作用。

為了綜合地評估預訓練模型的落地能力尤其是在效率上的能力,一套完整的評估方案在今年被提出—— ELUE(Efficient Language Understanding Evaluation),在這個評估方法下,算法準召等基本的效果将不是唯一的判斷标準,這無疑是一個重要的裡程碑,在該評估方法的引導下,将會有更多強化預訓練模型效率的方案産生。

然而預訓練大模型性能的優化絕對不止于算法本身,在編譯、引擎、硬體的優化上也在大步邁進。

由于新冠疫情等原因,深度學習所需要的顯示卡出現供貨嚴重緊缺,是以很多提升都被放在了引擎和編譯優化上。

無論是企業還是高校,都開始嘗試更為經濟實惠的加速加速方案。一方面,作為編譯加速的代表,TVM 和 ONNX 的使用逐漸普及,甚至出現在各種算法競賽上,如天池全球人工智能技術創新大賽中對選手要求推理速度,選手們則使用了 ONNX 等手段提升預測效率,成功完成了任務。

另一方面,硬體和底層引擎優化同樣是優化的重點,NVIDIA 在 2021 年初釋出 30 系顯示卡,年末釋出 40 顯示卡,讓深度學習的性能進一步提升的同時,也更加普及化;高通釋出的新一代骁龍晶片讓 AI 在移動端裝置的落地能力進一步提升;蘋果在 M1 晶片的基礎上釋出了 M1 Pro 和 M1 Max,盡管深度學習領域并未高度适配,但未來可期;OPPO 在年末的釋出會中釋出首個晶片 NPU,推動各項 AI 技術更好地在移動端中落地使用。

是以,在算法、軟硬體等多領域的大步邁進下,PTM 在算法上的效果能得到更大程度的釋放,落地場景也将會更加豐富。

未來展望

經過多年的發展,預訓練模型已經滲透到 NLP 甚至更多領域内,随着軟硬體性能提升,算法效果優化,适配性的增強,預訓練模型的落地成本得到很大程度的下降,能夠應用在更多領域。

一方面,針對現有的資料匮乏、政策複雜的問題,會有更多的增強和自監督手段解決,進而讓預訓練模型對問題相容性大幅提高。另一方面,軟硬體的訓練和推理速度提升,極大利好更多落地場景,甚至是相對較弱的移動端裝置,相信也有會有大量的應用。

正因為軟硬體性能的提升和算法效果的優化,由于要在更多領域使用 PTM,除了各個場景的定制,通用統一的預訓練模型将會得到進一步發展,有各種複雜知識的加持,通用性和可靠性将會成為它的特點,甚至會出現高度統一的預訓練模型中台,為多個場景提供強大的語言了解、解析甚至是生成能力。OPPO 小布助手深耕開放域智能對話技術,預訓練方案早已落地,但針對泛娛樂、百科、客服、系統等多領域、多場景的需求下,一個任務一個預訓練模型的模式并不現實,是以将持續探索更好的通用性落地技術方案。

考慮到預訓練的概念并非 NLP 領域特有,CV、推薦系統也逐漸有了自己的預訓練模型甚至預訓練系統,EMNLP 2021 上的 3 篇文章均和資料集有關,尤其是長論文中提出的“多語言、多文化的資料集”,資料集的産生和認可意味着需求的逐漸明确和重要性的提升,這對多模态、多語言技術的長足發展具有重大的促進作用,也預示着這個方向将會進一步發展,結合現在商業對“虛拟人”、“元宇宙”技術的追求,一個綜合的“大腦型”技術将會在不久的将來實作。

參考文獻:

Su, Jianlin, et al. "Whitening sentence representations for better semantics and faster retrieval." arXiv preprint arXiv:2103.15316 (2021).

Yan, Yuanmeng, et al. "ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer." arXiv preprint arXiv:2105.11741 (2021).

Xu, Jingjing, et al. "Vocabulary learning via optimal transport for neural machine translation." Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021.

Liu, Pengfei, et al. "Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing." arXiv preprint arXiv:2107.13586 (2021).

Safavi, Tara, and Danai Koutra. "Relational world knowledge representation in contextual language models: A review." arXiv preprint arXiv:2104.05837 (2021).

Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv:2104.08821 (2021).

Liang, Xiaobo, et al. "R-drop: regularized dropout for neural networks." arXiv preprint arXiv:2106.14448 (2021).

Pan, Xiao, et al. "Contrastive learning for many-to-many multilingual neural machine translation." arXiv preprint arXiv:2105.09501 (2021).

Liu, Yiqun, et al. "Que2Search: Fast and Accurate Query and Document Understanding for Search at Facebook." Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.

Li, Sen, et al. "Embedding-based Product Retrieval in Taobao Search." arXiv preprint arXiv:2106.09297 (2021).

Li, W. , et al. "UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning." (2020).

作者介紹

曾冠榮,OPPO 小布智能中心 NLP 算法工程師。2019年畢業于北京科技大學,主要研究方向有自然語言處理、深度學習、應用時間序列分析,在學期間先後發表論文6篇。畢業即加入OPPO,負責資料挖掘、自然語言處理、深度學習研發工作,發表專利3篇。知乎部落客“機智的叉燒”,有關深度學習、搜尋對話方向撰文200餘篇,關注量1萬餘人。

繼續閱讀