天天看點

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

機器之心報道

編輯:杜偉、陳萍

谷歌的 LaMDA 具有接近人類水準的對話品質。

語言模型可以完成不同任務,例如将一種語言翻譯成另一種語言,将長文檔總結為簡短的摘要等。在衆多任務中,開放域對話可能是最困難的任務之一,因為開放域對話需要模型覆寫不同的主題。在對話任務中,模型應該遵循負責任 AI(Responsible AI)實踐,并避免做出沒有外部資訊源支援的事實陳述。

近日,超過 50 多位谷歌研究者參與撰寫的論文《 LaMDA: Language Models for Dialog Applications 》介紹了語言模型 LaMDA 的最新進展。論文概括了他們如何在安全、可靠和高品質的對話應用程式方面取得進展。LaMDA 通過微調一系列專門用于對話的、基于 Transformer 的神經語言模型建構的,具有多達 137B 個參數,模型還可以利用外部知識源進行對話。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

論文位址:https://arxiv.org/pdf/2201.08239.pdf

來自谷歌大腦的論文作者之一 Romal Thoppilan 表示:LaMDA 模型使用多達 137B 個參數進行訓練,它展示了接近人類水準的對話品質以及在安全性和事實基礎方面具有顯着改進。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

目标和度量

指導訓練對話模型包括兩個至關重要的因素:目标和度量。LaMDA 有三個主要目标——品質、安全和根基性(Groundedness)。

品質:谷歌将品質分解為三個次元,即合理性、特異性和趣味性 (Sensibleness, Specificity, Interestingness,SSI),由人類評估者進行評估。

合理性是指模型是否産生在對話上下文中有意義的響應(例如,沒有常識錯誤,沒有荒謬的回應,以及與先前的回應沒有沖突);

特異性是通過判斷系統的響應是否特定于前面的對話上下文來衡量的,而不是适用于大多數上下文的通用回應;

趣味性是衡量模型是否産生了富有洞察力、出乎意料或機智的回應,是以更有可能創造更好的對話。

安全:谷歌還在開發和部署負責任 AI(Responsible AI)方面取得了重大進展。其安全度量由一組說明性的安全目标組成,這些目标捕捉模型應在對話中展示的行為。這些目标試圖限制模型的輸出,以避免任何可能對使用者造成傷害的意外結果,并避免加劇不公平的偏見。

根基性:目前這一代語言模型通常會生成看似合理但實際上與已知外部事實相沖突的陳述。這激發了谷歌對 LaMDA 根基性的研究。不攜帶任何真實世界資訊的随意回應都會影響資訊性,但不會影響根基性。雖然在已知來源中建立 LaMDA 生成的響應本身并不能保證事實的準确性,但它允許使用者或外部系統根據其來源的可靠性來判斷響應的有效性。

LaMDA 預訓練與微調

在定義了目标和度量之後,谷歌描述了 LaMDA 的兩階段訓練:預訓練和微調。

LaMDA 預訓練

在預訓練階段,谷歌首先從公共對話資料和其他公共網頁文檔中收集并建立了一個具有 1.56T 單詞的資料集,是用于訓練以往對話模型的單詞量的近 40 倍。在将該資料集标記為 2.81T SentencePiece token 之後,谷歌使用 GSPMD 預訓練模型,以預測句子中的所有下一個 token。預訓練的 LaMDA 模型已被廣泛應用于谷歌的自然語言處理研究中,包括程式合成、零樣本學習、風格遷移等。

LaMDA 微調

在微調階段,谷歌訓練 LaMDA,執行混合生成任務以生成對給定上下文的自然語言響應,執行關于響應是否安全和高品質的分類任務,最終生成一個兩種任務都能做的多任務模型。LaMDA 生成器被訓練預測限制為兩個作者之間來回對話的對話資料集上的下一個 token,LaMDA 分類器被訓練預測使用注釋資料在上下文中生成的響應的安全與品質(SSI)評級。

對話期間,LaMDA 生成器首先在給定目前多輪對話上下文時生成幾個候選響應,然後 LaMDA 預測每個候選響應的 SSI 和安全分數。安全分數低的候選響應首先被過濾掉,剩下的候選響應根據 SSI 分數重新排名,并選擇分數最高的作為最終響應。谷歌使用 LaMDA 分類器進一步過濾掉用于生成任務的訓練資料,以增加高品質候選響應的密度。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

LaMDA 生成一個候選響應并對其評分。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

LaMDA 通過合理、特異和有趣的方式處理任意使用者輸入。

事實根基

雖然人們能夠使用工具并參考已建立的知識庫來檢測事實,但很多語言模型僅利用内部模型參數來擷取知識。為了提高 LaMDA 原始響應的根基性,谷歌收集并建立了人類與 LaMDA 之間對話的資料集,這些對話在适用的情況下使用檢索查詢和檢索結果進行注釋。然後,谷歌在這個資料集上微調了 LaMDA 的生成器和分類器,以學習與使用者互動期間調用外部資訊檢索系統,并提升響應的根基性。雖然這一工作還處于非常早期的階段,但谷歌看到了有希望的結果。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

零樣本域自适應:看起來非常真實的假裝是珠穆朗瑪峰的 LaMDA 對話示例。結果表明,對話主體「珠穆拉瑪峰」提供了教育性和事實正确的響應。

評估

為了根據自己的關鍵度量來量化進展,谷歌收集來自預訓練模型、微調模型、人類評估者(即人類生成的響應)對多輪雙作者對話的響應,然後向不同的人類評估者問一系列問題,進而根據品質、安全性和根基性度量來評估這些響應。

谷歌觀察到,LaMDA 在每個次元和所有模型大小情況下都顯著優于預訓練模型,合理性、特異性和趣味性等品質度量通常會随模型參數量提升,無論微調與否。安全性似乎無法僅從模型縮放中收益,但确實可以通過微調提升。随着模型大小的增加,根基性也提升,這或許是因為更大的模型具備更大的記住不常見知識的能力,但微調使模型可以通路外部知識源并有效地将記住知識的負載轉移到外部知識源。微調還可以縮小與人類水準的品質差距,盡管該模型在安全性和根基性方面的性能依然低于人類。

1370億參數、接近人類水準,谷歌對話AI模型LaMDA放出論文

在合理性、特異性、趣味性、安全性、根基性和資訊性等方面比較預訓練模型(PT)、微調模型(LaMDA)和人類評估者生成對話(Human)。

使用Python快速建構基于NVIDIA RIVA的智能問答機器人

NVIDIA Riva 是一個使用 GPU 加速,能用于快速部署高性能會話式 AI 服務的 SDK,可用于快速開發語音 AI 的應用程式。Riva 的設計旨在輕松、快速地通路會話 AI 功能,開箱即用,通過一些簡單的指令和 API 操作就可以快速建構進階别的對話式 AI 服務。

2022年1月26日19:30-21:00,最新一期線上分享主要介紹:

對話式 AI 與 NVIDIA Riva 簡介

利用NVIDIA Riva建構語音識别子產品

利用NVIDIA Riva建構智能問答子產品

利用NVIDIA Riva建構語音合成子產品

繼續閱讀