作者 | Echo Tang、GPT-4o出品丨AI 科技大學營(ID:rgznai100)
當 ChatGPT 橫空出世之後,許多人都在讨論 AI 是否要取代程式員,技術的終點究竟會在哪裡?
此前我曾與一些軟體工程的專家讨論過這個話題,大家提出技術的終點将在于 GPT 是否會有自我進化的能力。
萬萬沒想到,突然就這麼來了。
中原標準時間 6 月 28 日淩晨,緊随 Google 正式釋出 Gemma 2 之後,OpenAI 推出了一款基于 GPT-4 的模型——CriticGPT,旨在幫助人類評估和檢測大型語言模型(LLM)生成的代碼輸出中的錯誤。CriticGPT 通過訓練生成自然語言回報,可以指出代碼中的問題,并且在檢測自然發生的 LLM 錯誤時,其生成的評審比人類評審更受歡迎,準确率達到63%。
一句話總結就是,OpenAI 實作了讓 GPT-4 給 GPT-4 自己改 Bug,許多時候效果比人類還好。
經過 OpenAI 實測發現,當人們使用 CriticGPT 來審查 ChatGPT 的代碼時,他們的表現比沒有幫助時高出 60%。OpenAI 表示,“我們正在将類似 CriticGPT 的模型內建到我們的 RLHF 标注流程中,為我們的訓練師提供明确的 AI 幫助。這是朝着能夠評估進階 AI 系統輸出邁出的一步,這些系統的輸出對于沒有更好工具的人來說可能很難評估。”
CriticGPT 因何而來?
據 OpenAI 官方表示,由于随着 OpenAI 在推理和模型行為方面的進步,ChatGPT 變得更加準确,其錯誤也變得更加微妙。這使得 AI 訓練師在錯誤發生時更難發現不準确之處,進而使推動 RLHF 的比較任務變得更加困難。這是 RLHF 的一個基本限制,可能會使模型逐漸變得比任何能夠提供回報的人更具知識性,因而更難對齊模型。
為了解決這個挑戰,OpenAI 訓練了 CriticGPT 來撰寫批評,突出 ChatGPT 回答中的不準确之處。
CriticGPT 的建議并不總是正确的,但它們可以幫助訓練師發現比沒有 AI 幫助時更多的模型回答問題。此外,當人們使用 CriticGPT 時,AI 會增強他們的技能,導緻比人們單獨工作時更全面的批評,并且比模型單獨工作時産生更少的虛構錯誤。在 OpenAI 的實驗中,第二個随機訓練師在 60% 以上的時間裡更喜歡 Human+CriticGPT 團隊的批評,而不是沒有輔助的人。
CriticGPT 幫助訓練師撰寫比沒有幫助時更全面的批評,同時産生比模型單獨批評時更少的虛構問題。
CriticGPT 背後的實作方法
CriticGPT 也通過 RLHF 訓練,類似于 ChatGPT。但與 ChatGPT 不同的是,它看到大量包含錯誤的輸入,然後需要對這些輸入進行批評。OpenAI 要求 AI 訓練師手動将這些錯誤插入到 ChatGPT 編寫的代碼中,然後撰寫示例回報,就像他們剛剛發現了他們自己插入的錯誤一樣。然後同一個人比較多種修改後代碼的批評,以便他們能輕易判斷批評是否抓住了他們插入的錯誤。
OpenAI 研究了 CriticGPT 是否能夠發現插入的錯誤和先前訓練師發現的“自然發生”的 ChatGPT 錯誤。發現在 63% 的情況下,訓練師更喜歡 CriticGPT 對自然發生錯誤的批評,部分原因是新的批評模型産生的“吹毛求疵”(無用的小抱怨)更少,并且較少虛構問題。
同時,OpenAI 還發現,通過使用額外的測試時搜尋與批評獎勵模型進行對比,可以生成更長和更全面的批評。這個搜尋程式使得能夠平衡在代碼中查找問題的力度,并在虛構問題和發現的錯誤數量之間進行精度-召回權衡。這意味着可以生成盡可能對 RLHF 有幫助的批評。
CriticGPT 的局限
首先,依然是模型相對共性的問題。據 OpenAI 官方披露,他們在回答相對簡短的 ChatGPT 答案上訓練了 CriticGPT。為了監督未來的代理,還需要開發方法來幫助訓練師了解長而複雜的任務。
其次依然是幻覺的問題。模型仍然會虛構,有時訓練師在看到這些虛構時會犯标注錯誤。
此外,有時真實世界的錯誤可能分布在答案的許多部分,未來還需要解決分散的錯誤。
最後,目前 CriticGPT 的幫助還是有限的:如果任務或回答極其複雜,即使是專家在模型的幫助下也可能無法正确評估。
由 CSDN 和 Boolan 聯合主辦的「2024 全球軟體研發技術大會(SDCon)」将于 7 月 4 -5 日在北京威斯汀酒店舉行。
由世界著名軟體架構大師、雲原生和微服務領域技術先驅 Chris Richardson 和 MIT 計算機與 AI 實驗室(CSAIL)副主任,ACM Fellow Daniel Jackson 領銜,華為、BAT、微軟、位元組跳動、京東等技術專家将齊聚一堂,共同探讨軟體開發的最前沿趨勢與技術實踐。