天天看點

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

智東西(公衆号:zhidxcom)

編譯| 程茜

編輯 | 李水青

智東西12月17日消息,本周四,OpenAI基于AI模型GPT-3釋出了WebGPT,該模型可線上搜尋問題組織答案,并添加引用來源,更準确地回答開放式問題。

在回答問題時,WebGPT可以通過浏覽器進行搜尋,在不同連結中尋找相關答案,并在最後組織答案時,将引用來源标注上去,使得答案來源的準确性有迹可循。

2020年6月,OpenAI公開了當時史上最強大AI模型GPT-3,花費數千萬美元,訓練量達2000億個單詞,WebGPT模型是對GPT-3進行微調後的成果。

OpenAI稱:“我們很高興開發更通用、智能的AI模型,但挑戰依然存在,例如應對不熟悉的開放式問題時,AI模型的回答還不是很準确。”

一、長江跟尼羅河誰更長?AI幫你上網搜答案

像GPT-3這樣的語言模型可以充分應對不同的任務,但對于那些在現實世界中都沒有準确答案的任務,這個模型往往會産生一些充滿“迷惑”的資訊。

為了解決這個問題,研究人員教AI模型使用網絡浏覽器對問題進行“百度”。該模型中包含“搜尋……”、“在頁面中查找:……”或“引用:……”之類的指令,遇到開放式問題,WebGPT可以模仿人類搜尋的行為來自動檢索答案。

通過這種方式,WebGPT模型就學會了從網頁中收集段落,然後使用這些段落來撰寫答案。

當被問道:“尼羅河和長江誰更長?”

WebGPT:“尼羅河比長江長。尼羅河在維多利亞湖和地中海之間綿延6650公裡(4130英裡)。長江從青海唐古拉山脈的源頭到東海,全長6300公裡(3915英裡)。”

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲WebGPT通過檢索回答“尼羅河和長江誰更長?”的問題

當被問道:“為什麼蘇伊士運河在2021年3月被封鎖?”

WebGPT:“蘇伊士運河于2021年3月被封鎖,因為一艘名為‘永遠’的集裝箱船擱淺在那裡。這艘船曾載着20000箱的貨物,在有兩條水道的運河河道被強風吹進了運河中,是以其他船隻無法繞過曾經給定的航道。蘇伊士運河管理局雇傭了一艘拖船将這條曾經被遺棄的運河拖出運河。運河阻塞對歐洲、亞洲和中東之間的貿易産生了重大的負面影響。這引發了集裝箱現貨運價的新一輪飙升,該運價最終開始從創紀錄的高點回落。”

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

當被問道:《哈利波特》系列和《指環王》哪一部有更多的單詞?

WebGPT:“《指環王》三部曲比《哈利波特》系列包含更多的單詞。包括《霍比特人》,整個《指環王》系列包含576459個單詞。相比之下,《哈利波特》系列包含1084170個單詞。”

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

研究小組對GPT-3的微調與最開始對GPT-3的訓練方法一樣。他們首先訓練模型模仿人們回答問題的方式,這使它能夠使用基于浏覽器檢索到的内容來回答問題。

然後,他們通過訓練激勵模型來預測人類偏好,并使用強化學習或拒絕采樣(随機采樣方式)對其進行優化,進而提高模型答案的有用性和準确性。

二、超一半回答優于人類,但可能引用不可信來源

ELI5是一個用來對機器學習模型調試的Python庫,研究人員挑選了這個庫中“像我五歲一樣解釋(Explain Like I’m Five)”欄目裡的開放式問題,發現經過系統訓練的WebGPT已經可以回答其中的問題了。

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲ELI5中的評估結果

研究人員說,他們訓練了三種不同的AI模型,對應于三種不同的inference time(推理時間)來進行計算。結果表明,表現最好的模型産生的答案,在56%的時間裡比人類示範者寫的答案更受歡迎,并且答案的事實準确性相近。

研究人員稱,未來他們将使用人工回報來改進模型的答案,可能會最終超越人類的答案。

對于模型的訓練分布(training distribution)來說,這三個模型中,最好的模型的答案與人類示範者所寫的答案幾乎一樣準确。然而,研究人員稱,實作所有模型都能達到穩健是一個挑戰。

為了探讨這個問題,研究人員在TruthfulQA上評估了該模型,TruthfulQA是一個資料集,包含了很多容易産生誤解的問題,可以測試模型是否會産生常見的誤解。在這個過程中,問題的答案會根據真實性和資訊量進行評分,例如,“我沒有評論”這個答案就被認為是真實的但不提供資訊。

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲TruthfulQA中的評估結果

WebGPT模型在TruthfulQA上的表現優于GPT-3,并表現出更有利的縮放特性,不過模型落後于人類答案的部分原因是它們有時會引用不可靠的來源。研究人員希望使用對抗性訓練等技術來減少這些失敗的頻率。

三、公開資訊佐證,AI也可以加引用

為了增加人類回報對提高事實準确性的作用,研究人員必須能夠評估模型産生答案的事實準确性。對于研究人員來說,這極具挑戰性,因為有些答案可能是主觀的或含糊不清的。

出于這個原因,研究人員為模型增加了“引用來源”功能。這使人們可以通過檢查答案,是否得到了可靠的資訊支援,并評估事實的準确性。除了使任務更易于管理外,這項功能還減少了答案歧義。

然而,這種方法也提出了許多問題。來源可靠的判定标準?哪些聲明足夠确定不需要支援?在評估事實準确性和其他标準之間應該進行什麼權衡?所有這些都是艱難的判斷。

研究人員認為,WebGPT仍然存在一些基本錯誤,很多細微差别沒有被發現。“但我們預計,随着人工智能系統的改進,這類決策将變得更加重要,需要跨學科研究來制定既實用又符合認知的标準,我們還預計透明度等進一步的考慮很重要。”

WebGPT通過引用來源其實不足以評估事實準确性。研究人員提到,一個足夠強大的模型會精心挑選它認為可以令人信服的來源,即使這個來源有可能沒有準确的證據。研究人員提出了一種新的解決辦法就是:增加辯論過程來獲得答案。

WebGPT模型通常比GPT-3更“真實”,它生成錯誤陳述的頻率也更低,但這個模型仍然存在很多風險。OpenAI說:“帶有引用的答案通常被認為具有權威性,這可能會掩蓋我們的模型仍然存在基本錯誤的事實。”WebGPT還傾向于強化使用者的現有信念。

除了這些部署風險之外,如果允許WebGPT向各種浏覽器發送查詢并跟蹤Web上已存在的連結,這也可能會增加新的風險。

結語:GPT-3大模型取得新進展

曾經可以寫小說、敲代碼、編劇本的GPT-3模型在研究人員手中,又學會了自動檢索。但根據GPT-3的訓練經驗來看,這些風險可能還不足以産生危機。然而,随着模型的智能化逐漸深入,在未來是否會産生更大的風險?

人類回報和Web浏覽器等工具為實作穩健、真實的通用AI模型提供了一條有希望的途徑。OpenAI稱,AI模型在充滿挑戰或不熟悉的情況下不斷掙紮,但在這個方向上他們仍然取得了重大進展。

來源:OpenAI

繼續閱讀