1370億參數，谷歌帶來新語言模型LaMDA，将實作更安全更高品質對話

如今，語言模型的能力越來越強，在各種任務中都發揮了很大的作用。其中，開放域對話（Open-Domain Dialog）可能是最難以完成的一類任務，需要做到能夠就任何主題進行對話。

在對話任務中，除了生成人類認為合理、有趣且特定于上下文的響應之外，語言模型還須按照負責任的人工智能（Responsible AI）架構工作，以免生成無資訊源證明的内容。

近日，谷歌在以《LaMDA：對話應用程式的語言模型》（LaMDA: Language Models for Dialog Applications ）為題的一篇論文中介紹了語言模型 LaMDA 在安全、可靠和高品質的對話方面取得的最新進展。

據悉，LaMDA 模型具有 1370 億個參數，通過微調采用 Transformer 架構的專用對話神經語言模型而建構，可以利用外部知識源展開對話。

對于訓練對話模型來說，定義目标和名額至關重要。LaMDA 模型具有品質、安全和紮實性三個關鍵目标，每個目标有各自的衡量名額。

品質上，谷歌将其拆分為合理性、特異性和趣味性（Sensibleness, Specificity, Interestingness，SSI）這三個方面。

其中，合理性是指模型在對話中作出有實際意義的回應，如回應中沒有出現常識性錯誤；特異性是指模型在對話中針對特定的上下文來響應，而不是在正常情形下的通用響應；趣味性是指模型作出了富有洞察力和智慧的回應。

圖 | LaMDA 模型對話（來源：谷歌）

安全上，谷歌在開發和部署負責任的人工智能方面有很大的進步。為避免出現各種偏見以及可能對使用者造成傷害的内容，其用一組可限制模型輸出對話的安全目标來組成安全名額。

由于語言模型有時會輸出貌似合理實際卻與已知事實相悖的内容，谷歌對 LaMDA 模型的紮實性展開了研究。

紮實性是指在外部世界聲明上能夠獲得權威外部資訊來源支援的百分比。但是，在這些來源中建立的 LaMDA 模型也無法完全保證所生成響應的準确性，是以谷歌允許使用者及外部系統來源的可靠性來判斷響應有效與否。

此外，谷歌在論文介紹了 LaMDA 模型的預訓練和微調階段。

預訓練階段，谷歌做了一個包含 1.56T 詞彙的資料集，并将該資料集中的詞彙标記為 2.81T SentencePiece token，接着通過 GSPMD 系統對 LaMDA 模型進行預訓練。

據了解，谷歌将經過預訓練的 LaMDA 模型用于其自然語言處理的研究中，包括程式合成、零樣本學習和風格遷移等。

微調階段，谷歌讓 LaMDA 模型執行兩類任務，一類是作出面向指定上下文自然語言回應的混合生成任務，另一類響應是否安全和高品質的分類任務，進而成為一個多任務模型。

對話時，LaMDA 生成器會對面向的上下文生成幾個候選回應，然後 LaMDA 分類器預測每個候選回應的 SSI 和安全分數，最後根據這兩項資料的排名選出最佳回應。

人類可以通過現存的工具和知識庫來明确事實，而語言模型僅能依靠其内部參數來得到訊息。

為此，谷歌做了一個人類與 LaMDA 模型交流的資料集，并通過該資料集對 LaMDA 模型的生成器和分類器進行微調，讓其在與對話期間調用外部資訊檢索系統，以提高回應的紮實性。

谷歌表示，“在對 LaMDA 模型進行評估後得出，其在每個次元和所有模型大小情況下都顯著優于預先訓練的模型。無論微調與否，合理性、特異性和趣味性等品質名額通常會随模型參數量而提升。而安全性雖然無法僅根據模型縮放變化，但可以通過微調來提升。”

此外，LaMDA 模型的紮實性會因模型大小的增加而不斷提升。造成的原因可能是，模型越大，其記住不常見知識的能力越強，且微調允許模型通路外部知識源，并将記住知識的負載轉移到外部知識源。

不過，微調雖然縮小了語言模型與人類之間的差距，但該模型在安全性和紮實性上的水準依然弱于人類。

圖 | LaMDA 模型各方面的評估資料（來源：谷歌）

LaMDA 模型的出現為完成開放域對話開辟了新的途徑，同時表明了神經語言模型面臨的關鍵挑戰，如安全名額的使用和紮實性的提高，以及如何通過更大的模型和更清晰标記的資料來進行微調。

但是，這還是一項非常早期的工作，且具有很大的局限性。未來，谷歌将探索新的方法來進一步改進安全名額和 LaMDA 模型的紮實性，并與其人工智能原則保持一緻。

-End-

參考：

https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html

繼續閱讀