OpenAI教GPT-3學會上網，“全知全能”的AI模型上線了

機器之心報道

編輯：陳萍

它被命名為 WebGPT，OpenAI 認為浏覽網頁的方式提高了 AI 解答問題的準确性。

如果 AI 學會上網，那麼它就擁有了無限擷取知識的方式，之後會發生什麼就不太好預測了。于是著名 AI 研究機構 OpenAI 教那個開啟了通用人工智能大門、體量巨大的人工智能模型 GPT-3 學會了上網。

2020 年 5 月，OpenAI 上線具有 1750 億參數的 GPT-3，這個大模型可謂功能強大，它使用的最大資料集在處理前容量達到了 45TB，不僅可以更好地答題、翻譯、寫文章，還帶有一些數學計算的能力。這樣強大的深度學習模型，不禁讓人産生一種錯覺：真正的 AI 要來了嗎？

在 GPT-3 之後，語言大模型成為了各家科技公司研究的重要趨勢，有把大模型和知識圖譜結合的，也有在「大」這個方向上一頭走到黑的。今年 12 月，谷歌 GLaM已經把參數量推高到了 1.2 萬億。

像 GPT-3 這樣的語言模型對許多不同的任務都很有用，但在執行現實世界知識任務時往往會産生「幻覺」資訊。它們往往有一個缺點——缺乏常識。比如在被問及「我的腳有幾個眼睛」時，它會回答「兩個」。這一缺陷被業内稱為「GPT-3 的阿喀琉斯之踵」。在具體的應用中，它會導緻模型在一些涉及邏輯推理和認知的任務上表現較差。

為了解決這個問題，OpenAI 教會了 GPT-3 使用基于文本的 web 浏覽器。

現在，這個模型能正确地處理一些棘手的問題：比如，有人詢問了一個錯誤的問題：「莎士比亞什麼時候寫的《哈利 · 波特》系列小說?」

該模型回答：莎士比亞沒有寫《哈利 · 波特》小說。這些小說是由 J.K. 羅琳完成的……

現在看來，這個會上網的 WebGPT，不會再直接回答「我的腳有幾個眼睛」這樣錯誤明顯的問題，而是幫你糾正。

從回答的内容來看，這個模型完全正确，此外，該模型還給讀者提供了引用文獻，如藍體數字所示，答案的最後還給出了相關連結，點選每個連結，還能連結到相應的網頁。

又比如，有人問：海馬體中有互相連接配接嗎？模型的回答感覺比專業人士還要專業。同樣的，模型還給出了參考連結。

對于一些更專業的問題，WebGPT 也不在話下，比如，什麼是機器學習中的稀疏 transformer？對于這個問題，可能剛入行 AI 的研究者都回答不了，但是該模型能給出準确的答案，還帶公式的那種。

下面是模型搜尋過程：

上述功能是如何實作的呢？具體來說，OpenAI 對 GPT-3 進行了微調，以使用基于文本的網絡浏覽器更準确地回答開放式問題，這允許模型搜尋和浏覽網頁。該模型原型複制了人類線上研究問題答案的方式，涉及送出搜尋查詢，跟蹤連結，以及向上和向下滾動網頁。模型經過訓練後，它會引用資訊源，這使得模型提供回報更容易，進而提高事實的準确性。

此外，該模型還提供了一個開放式問題和浏覽器狀态摘要，并且必須具有諸如「Search……」、「Find in page：……」或「Quote：……」之類的指令。通過這種方式，模型從網頁中收集段落，然後使用這些段落來撰寫答案。

通過設定任務，OpenAI 能夠使用模仿學習（imitation learning）在不同任務上訓練模型，然後根據人類回報優化答案品質。OpenAI 在 ELI5 上對模型進行了訓練和評估，其中 ELI5 是一個由 Reddit 使用者提問的問題集。

論文位址：https://cdn.openai.com/WebGPT.pdf

模型訓練

如此智能的模型是怎麼實作的呢？

總體而言，OpenAI 對 GPT-3 模型家族的模型進行了微調，重點研究了具有 760M、13B 和 175B 參數的模型。從這些模型出發，OpenAI 使用了四種主要的訓練方法：

行為克隆（Behavior cloning，BC）：OpenAI 使用監督學習對示範進行了微調，并将人類示範者發出的指令作為标簽；

模組化獎勵（Reward modeling，RM）：從去掉 unembedding 層的 BC 模型開始，OpenAI 訓練的模型可以接受帶有引用的問題和答案，并輸出标量獎勵，獎勵模型使用交叉熵損失進行訓練；

強化學習（RL）：OpenAI 使用 Schulman 等人提出的 PPO 微調 BC 模型。對于環境獎勵，OpenAI 在 episode 結束時擷取獎勵模型分數，并将其添加到每個 token 的 BC 模型的 KL 懲罰中，以減輕獎勵模型的過度優化；

剔除抽樣（best-of-n）：OpenAI 從 BC 模型或 RL 模型（如果未指定，則使用 BC 模型）中抽取固定數量的答案（4、16 或 64），并選擇獎勵模型排名最高的答案。

對于 BC、RM 和 RL，OpenAI 使用了互相不相交的問題集。總結來說，BC 中，OpenAI 保留了大約 4% 的示範作為驗證集。RM 中，OpenAI 使用了不同大小模型（主要是 175B 模型）對比較資料集答案進行采樣，使用不同方法和超參數的組合進行訓練，并将它們組合成單個資料集。最終獎勵模型經過大約 16,000 次比較的訓練，其餘 5,500 次用于評估。而 RL 中采用混合的方式，其中 90% 問題來自 ELI5，10% 問題來自 TriviaQA。

結果

ELI5 結果

模型經過訓練可以回答來自 ELI5 的問題，OpenAI 訓練了三種不同的模型（760M、13B 和 175B），對應于三種不同的推理時間計算預算。OpenAI 表現最好的模型（175B best-of-64）産生的答案在 56% 的時間裡比人類示範者寫的答案更受歡迎。盡管這些是用于訓練模型的同一種示範，但我們能夠通過使用人工回報來改進模型的答案以進行優化。

在 ELI5 測試集上，将 OpenAI 的模型與人類示範者進行比較。

TruthfulQA 結果

對于從訓練分布（training distribution）中提出的問題，OpenAI 最好的模型的答案平均與我們的人類示範者寫的答案一樣準确。然而，對于 out-of-distribution 問題，魯棒性是一個挑戰。為了探讨這個問題，OpenAI 在 TruthfulQA 資料集上進行了評估。OpenAI 的模型在 TruthfulQA 上優于 GPT-3，并表現出更有利的擴充特性。然而，OpenAI 的模型落後于人類的表現，部分原因是它們引用了不可靠的來源。該研究希望使用對抗訓練等技術來減少這些問題。

TruthfulQA 結果。

評估實時準确性

為了提供正确的回報以提高事實準确性，人類必須能夠評估模型産生的回答。這可能是個極具挑戰性的任務，因為回複可能是技術性的、主觀的或含糊不清的。出于這個原因，開發者要求模型引用其回答的來源。

經過測試，OpenAI 認為 WebGPT 還是無法識别很多細微差别，人們預計随着人工智能系統的改進，這類決策将變得更加重要，需要跨學科研究來制定既實用又符合認知的标準。或許辯論的方式可以緩解這些問題。

部署和訓練的風險

因為生成錯誤陳述的幾率更低，WebGPT 顯然比 GPT-3 更加優秀，但它仍然存在風險。帶有原文引用的答案通常被認為具有權威性，這可能會掩蓋 OpenAI 新模型仍然存在基本錯誤的事實。該模型還傾向于強化使用者的現有信念，研究人員們正在探讨如何最好地解決這些問題。

除了出錯和誤導之外，通過讓 AI 模型通路網絡的方法訓練，為該研究引入了新的風險。對此 OpenAI 表示人工智能的浏覽環境還不是完全的網絡通路，是通過模型将查詢請求發送到 Microsoft Bing Web Search API 并關聯網絡上已有連結實作的，這可能會産生副作用。

OpenAI 表示，根據對 GPT-3 的已有經驗，該模型似乎不足以危險地利用這些與外界互聯的方式。然而，風險會随着模型能力的增加而增加，研究人員正在努力建立針對它們的内部保護措施。

OpenAI 認為，人類的回報和 Web 浏覽器等工具為實作穩定可信，真正通用的 AI 系統找到了一條有希望的途徑。盡管目前的語言大模型還面臨很多未知和挑戰，但人們在這個方向上仍然取得了重大進展。

參考連結：

https://openai.com/blog/improving-factual-accuracy/

OpenAI教GPT-3學會上網，“全知全能”的AI模型上線了

繼續閱讀

OpenAI o1與人工智能的過去與未來

未來不會被人工智能取代的4個領域，第1個最穩，第4個成本效益最高

Adobe的Project Turntable人工智能工具可在三維空間中旋轉二維藝術作品

陳健淋｜通用人工智能視野下企業資料賦權的類型展開

科學家利用新型人工智能揭開嬰兒學習和發育的秘密

南沙和華為強強聯手！共建人工智能生态基地

2025年人工智能十大趨勢！最新預測→

張藝謀透露《三體》進度：隻拍一部、大幅删改、引入人工智能

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

法蘭克福書展聚焦人工智能發展與監管

人工智能未來十大趨勢

研學報道|“探索科技前沿引領未來創新”人工智能創新應用博覽會研學之旅啟航

論壇直擊|人工智能創新應用發展領航交流會圓滿舉辦

數字科技、人工智能拯救春晚收視率

DeepSeek出世，人工智能厲害，教師會被取代嗎？讀書還有意義嗎？

一邊大量失業一邊搞人工智能，發展搶了幾億人飯碗，未來怎麼辦？