天天看點

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

機器之心報道

編輯:陳萍

它被命名為 WebGPT,OpenAI 認為浏覽網頁的方式提高了 AI 解答問題的準确性。

如果 AI 學會上網,那麼它就擁有了無限擷取知識的方式,之後會發生什麼就不太好預測了。于是著名 AI 研究機構 OpenAI 教那個開啟了通用人工智能大門、體量巨大的人工智能模型 GPT-3 學會了上網。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

2020 年 5 月,OpenAI 上線具有 1750 億參數的 GPT-3,這個大模型可謂功能強大,它使用的最大資料集在處理前容量達到了 45TB,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。這樣強大的深度學習模型,不禁讓人産生一種錯覺:真正的 AI 要來了嗎?

在 GPT-3 之後,語言大模型成為了各家科技公司研究的重要趨勢,有把大模型和知識圖譜結合的,也有在「大」這個方向上一頭走到黑的。今年 12 月,谷歌 GLaM已經把參數量推高到了 1.2 萬億。

像 GPT-3 這樣的語言模型對許多不同的任務都很有用,但在執行現實世界知識任務時往往會産生「幻覺」資訊。它們往往有一個缺點——缺乏常識。比如在被問及「我的腳有幾個眼睛」時,它會回答「兩個」。這一缺陷被業内稱為「GPT-3 的阿喀琉斯之踵」。在具體的應用中,它會導緻模型在一些涉及邏輯推理和認知的任務上表現較差。

為了解決這個問題,OpenAI 教會了 GPT-3 使用基于文本的 web 浏覽器。

現在,這個模型能正确地處理一些棘手的問題:比如,有人詢問了一個錯誤的問題:「莎士比亞什麼時候寫的《哈利 · 波特》系列小說?」

該模型回答:莎士比亞沒有寫《哈利 · 波特》小說。這些小說是由 J.K. 羅琳完成的……

現在看來,這個會上網的 WebGPT,不會再直接回答「我的腳有幾個眼睛」這樣錯誤明顯的問題,而是幫你糾正。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

從回答的内容來看,這個模型完全正确,此外,該模型還給讀者提供了引用文獻,如藍體數字所示,答案的最後還給出了相關連結,點選每個連結,還能連結到相應的網頁。

又比如,有人問:海馬體中有互相連接配接嗎?模型的回答感覺比專業人士還要專業。同樣的,模型還給出了參考連結。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

對于一些更專業的問題,WebGPT 也不在話下,比如,什麼是機器學習中的稀疏 transformer?對于這個問題,可能剛入行 AI 的研究者都回答不了,但是該模型能給出準确的答案,還帶公式的那種。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

下面是模型搜尋過程:

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

上述功能是如何實作的呢?具體來說,OpenAI 對 GPT-3 進行了微調,以使用基于文本的網絡浏覽器更準确地回答開放式問題,這允許模型搜尋和浏覽網頁。該模型原型複制了人類線上研究問題答案的方式,涉及送出搜尋查詢,跟蹤連結,以及向上和向下滾動網頁。模型經過訓練後,它會引用資訊源,這使得模型提供回報更容易,進而提高事實的準确性。

此外,該模型還提供了一個開放式問題和浏覽器狀态摘要,并且必須具有諸如「Search……」、「Find in page:……」或「Quote:……」之類的指令。通過這種方式,模型從網頁中收集段落,然後使用這些段落來撰寫答案。

通過設定任務,OpenAI 能夠使用模仿學習(imitation learning)在不同任務上訓練模型,然後根據人類回報優化答案品質。OpenAI 在 ELI5 上對模型進行了訓練和評估,其中 ELI5 是一個由 Reddit 使用者提問的問題集。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

論文位址:https://cdn.openai.com/WebGPT.pdf

模型訓練

如此智能的模型是怎麼實作的呢?

總體而言,OpenAI 對 GPT-3 模型家族的模型進行了微調,重點研究了具有 760M、13B 和 175B 參數的模型。從這些模型出發,OpenAI 使用了四種主要的訓練方法:

行為克隆(Behavior cloning,BC):OpenAI 使用監督學習對示範進行了微調,并将人類示範者發出的指令作為标簽;

模組化獎勵(Reward modeling,RM):從去掉 unembedding 層的 BC 模型開始,OpenAI 訓練的模型可以接受帶有引用的問題和答案,并輸出标量獎勵,獎勵模型使用交叉熵損失進行訓練;

強化學習(RL):OpenAI 使用 Schulman 等人提出的 PPO 微調 BC 模型。對于環境獎勵,OpenAI 在 episode 結束時擷取獎勵模型分數,并将其添加到每個 token 的 BC 模型的 KL 懲罰中,以減輕獎勵模型的過度優化;

剔除抽樣(best-of-n):OpenAI 從 BC 模型或 RL 模型(如果未指定,則使用 BC 模型)中抽取固定數量的答案(4、16 或 64),并選擇獎勵模型排名最高的答案。

對于 BC、RM 和 RL,OpenAI 使用了互相不相交的問題集。總結來說,BC 中,OpenAI 保留了大約 4% 的示範作為驗證集。RM 中,OpenAI 使用了不同大小模型(主要是 175B 模型)對比較資料集答案進行采樣,使用不同方法和超參數的組合進行訓練,并将它們組合成單個資料集。最終獎勵模型經過大約 16,000 次比較的訓練,其餘 5,500 次用于評估。而 RL 中采用混合的方式,其中 90% 問題來自 ELI5,10% 問題來自 TriviaQA。

結果

ELI5 結果

模型經過訓練可以回答來自 ELI5 的問題,OpenAI 訓練了三種不同的模型(760M、13B 和 175B),對應于三種不同的推理時間計算預算。OpenAI 表現最好的模型(175B best-of-64)産生的答案在 56% 的時間裡比人類示範者寫的答案更受歡迎。盡管這些是用于訓練模型的同一種示範,但我們能夠通過使用人工回報來改進模型的答案以進行優化。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

在 ELI5 測試集上,将 OpenAI 的模型與人類示範者進行比較。

TruthfulQA 結果

對于從訓練分布(training distribution)中提出的問題,OpenAI 最好的模型的答案平均與我們的人類示範者寫的答案一樣準确。然而,對于 out-of-distribution 問題,魯棒性是一個挑戰。為了探讨這個問題,OpenAI 在 TruthfulQA 資料集上進行了評估。OpenAI 的模型在 TruthfulQA 上優于 GPT-3,并表現出更有利的擴充特性。然而,OpenAI 的模型落後于人類的表現,部分原因是它們引用了不可靠的來源。該研究希望使用對抗訓練等技術來減少這些問題。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

TruthfulQA 結果。

評估實時準确性

為了提供正确的回報以提高事實準确性,人類必須能夠評估模型産生的回答。這可能是個極具挑戰性的任務,因為回複可能是技術性的、主觀的或含糊不清的。出于這個原因,開發者要求模型引用其回答的來源。

經過測試,OpenAI 認為 WebGPT 還是無法識别很多細微差别,人們預計随着人工智能系統的改進,這類決策将變得更加重要,需要跨學科研究來制定既實用又符合認知的标準。或許辯論的方式可以緩解這些問題。

部署和訓練的風險

因為生成錯誤陳述的幾率更低,WebGPT 顯然比 GPT-3 更加優秀,但它仍然存在風險。帶有原文引用的答案通常被認為具有權威性,這可能會掩蓋 OpenAI 新模型仍然存在基本錯誤的事實。該模型還傾向于強化使用者的現有信念,研究人員們正在探讨如何最好地解決這些問題。

除了出錯和誤導之外,通過讓 AI 模型通路網絡的方法訓練,為該研究引入了新的風險。對此 OpenAI 表示人工智能的浏覽環境還不是完全的網絡通路,是通過模型将查詢請求發送到 Microsoft Bing Web Search API 并關聯網絡上已有連結實作的,這可能會産生副作用。

OpenAI 表示,根據對 GPT-3 的已有經驗,該模型似乎不足以危險地利用這些與外界互聯的方式。然而,風險會随着模型能力的增加而增加,研究人員正在努力建立針對它們的内部保護措施。

OpenAI 認為,人類的回報和 Web 浏覽器等工具為實作穩定可信,真正通用的 AI 系統找到了一條有希望的途徑。盡管目前的語言大模型還面臨很多未知和挑戰,但人們在這個方向上仍然取得了重大進展。

參考連結:

https://openai.com/blog/improving-factual-accuracy/

繼續閱讀