OpenAI煉出最強數學解題模型，擊碎AI瞎說的臭毛病

智東西

作者 | 程茜

編輯 | 心緣

智東西6月1日報道，今天淩晨，OpenAI官方部落格釋出新的研究進展，在數學推理能力上，研究人員正在通過過程監督的獎勵模型揪出大型語言模型的邏輯錯誤。

大型語言模型在執行複雜多步推理能力上有了很大提高，但有時候仍會産生邏輯錯誤，這種錯誤通常被稱為“幻覺”。這也是阻礙通用人工智能時代到來的關鍵一步。

而這種幻覺現在有望被結果監督、過程監督的獎勵模型打破。具體方法是，研究人員使用模型思維鍊的最終結果對結果監督的獎勵模型（ORM）進行訓練，而過程監督的獎勵模型（PRM）會接收思維鍊中每一步的回報訓練。

過程監督相比于結果監督的優勢在于，它會直接獎勵遵循一緻的思維鍊模型，并且因為過程中的每個步驟都受到了精确的監督，能指出發生錯誤的确切位置，其結果也更容易被人類解讀，是以可以更直接地獎勵大型語言模型遵循人類認可的思維鍊。

OpenAI的研究人員對結果監督和過程監督進行了更詳細的比較，他們使用了更強大的基礎模型GPT-4、更多的人類回報，并在MATH資料集上進行了訓練和測試。基于上述條件，研究人員證明了，過程監督的獎勵模型能解決MATH測試集代表性子集中78.2%的問題。

一、訓練1.2萬道數學題，大模型監督小模型訓練

在測試過程中，結果監督可以在沒有人為幹預的情況下提供，因為MATH資料集中的所有問題都有可自動檢查的答案。但過程監督需要依靠人工資料标注器來标注模型生成的解決方案中每個步驟的重要性。

研究人員就在大規模和小規模兩種情況下進行實驗，在大規模訓練下，研究人員基于GPT-4進行微調，但這一情況下，過程監督和獎勵監督的訓練集資料沒有完全重合，無法直接比較。是以，研究人員對模型進行了小規模訓練以進行直接比較。為了降低人工回報的成本，他們使用大型語言模型來監督小型語言模型訓練。

在每個模型上，研究人員使用一個固定的模型來生成所有的解決方案，這個固定模型就是生成器。為了收集過程監督資料，研究人員向人類資料标注器提供了大規模生成器采樣的數學問題的解決方案步驟。

人類資料标注器就會為每個步驟配置設定一個Positive、Negative、Neutral的标簽，Positive代表該步驟正确、合理，Negative代表不正确、不合理，Neutral表示有歧義。

Positive：這個問題中，GPT-4在第7、8步時執行猜測，這也是大型語言模型容易産生幻覺的常見地方，即聲稱某個猜測是正确的，但這裡沒有發生錯誤：

Negative：下面這個問題中，第七個步驟，GPT-4進行了錯誤的簡化表達，獎勵模型指出了錯誤：

Neutral：第13步中，GPT-4試圖通過組合相似的項來簡化等式，它将“12x”正确移動到了左邊，并進行了組合，右邊的項沒有改變，獎勵模型沒有辨認出這個錯誤：

研究人員将這一帶有标簽的步驟資料集稱為PRM800K，包含針對12000個問題，75000個解決方案以及80萬步驟的标簽。其中包含4500道MATH資料集中的問題。

二、過程監督整體效果優于結果監督，解決方案更多效果更好

結果監督的獎勵模型中，研究人員從生成器中為每個問題均勻采樣固定數量的答案，并訓練獎勵模型預測每個答案是正确或不正确。實際操作過程中，研究人員會通過自動檢查最終答案來确定正确性。并使用獎勵模型在最終token處的預測作為解決方案的總體得分。

但這種自動評分機制并不完全可靠，該機制無法對通過錯誤推理得出正确答案的解決方案作出合理判斷。

過程監督的獎勵模型會預測每個步驟中最後一個token的正确性。如下圖所示，過程監督的獎勵模型對同一問題的兩個解決方案評分，左邊的解決方案正确，右邊不正确。綠色标注是高分數，紅色标注是低分數，獎勵模型能正确識别右邊解決方案中的錯誤位置。

研究人員使用來自MATH測試集的問題來評估其過程監督和結果監督獎勵模型，為每個問題生成許多解決方案，然後選擇每個獎勵模型排名最高的解決方案。

下圖顯示了最終達到正确答案的所選解決方案的百分比，過程監督獎勵模型整體表現更好，并且随着研究人員對每個問題的解決方案考慮範圍擴大，其性能差距也會擴大。是以，研究人員認為，過程監督獎勵模型更加可靠。

三、數學外224道問題評估，過程監督效果更優

研究人員還研究了主動學習的影響，他們估計主動學習可以使過程監督的資料效率提高2.6倍。

此外，為了探究獎勵模型的泛化性，研究人員還對224道STEM問題進行了大規模的過程監督、結果監督評估，包括AP實體、AP微積分、AP化學、AMC10和AMC12考試，其中，過程監督的表現優于結果監督。

并且過程監督更有可能産生可解釋的推理，因為它會鼓勵大型語言模型遵循人類确認的邏輯思考過程。

在某些情況下，更安全的人工智能系統方法會導緻其性能下降，會産生對齊稅（alignment tax）成本，也就是大型語言模型要和人類的價值觀對齊，這在一定程度上會限制大型語言模型的想象力。

OpenAI研究人員的結果表明，在數學領域，過程監督實際上會産生負對齊稅。

目前尚不清楚這些結果能否完全推廣到數學以外的領域，但研究人員認為，如果這些結果具有普遍性，過程監督就提供了一種比結果監督更高效、更一緻的方法。

結語：AI可解釋性研究亟需加速

上個月，OpenAI用GPT-4來自動解釋GPT-2的行為的研究打開了大模型思考黑盒，此次，在數學推理能力上，研究人員又通過過程獎勵模型使得大模型的思考過程變得可追蹤、可糾錯，這些研究都使得AI的可解釋性有了更大的進步空間。

從結果來看，過程監督獎勵模型的效果目前隻在數學推理領域得到有效印證，但正如OpenAI的研究人員所說，目前的研究方向對于過程監督在其他領域的影響以及未來的工作很重要。這些研究未來可以讓大模型在内容生成、了解上展現出強大能力的同時，其“思考過程”也能被檢測出是否有偏見或錯誤，進而讓大模型的黑盒變得更加透明。

OpenAI煉出最強數學解題模型，擊碎AI瞎說的臭毛病

一、訓練1.2萬道數學題，大模型監督小模型訓練

二、過程監督整體效果優于結果監督，解決方案更多效果更好

三、數學外224道問題評估，過程監督效果更優

結語：AI可解釋性研究亟需加速

繼續閱讀

釋出會對比慘烈，奧特曼發文暗諷谷歌！谷歌瘋狂重組迎擊OpenAI

曝OpenAI超級對齊團隊解散！

70B模型秒出1000token，代碼重寫超越GPT4o，來自OpenAI參投團隊

OpenAI超級對齊團隊解散知情人士揭秘：對奧特曼信任崩潰

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

藥企諾華、GSK中國區高層變動；OpenAI首席科學家離職 | 高管動态2024年5月5日-17日

保守派大潰敗？ OpenAI内鬥幕後推手離職阿爾特曼：這讓我很難過

OpenAI驚天内幕曝光！高管怒斥遭打壓，7100億AI巨頭内外交困｜钛媒體AGI

GPT-4o引發OpenAI組織創新熱議！重任應屆生大學生，職級都是浮雲

Ilya離開OpenAI内幕曝光：奧特曼砍他團隊算力，優先搞産品賺錢

OpenAI宮鬥大戲第二幕核心安全團隊解散負責人自爆離職内幕

OpenAI逼迫離職員工簽署閉嘴協定：GPT可以說話，但前員工不能

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

聊聊OpenAI最新釋出的GPT 4o

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！