Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

大語言模型的誕生，切實地推進了人工智能的發展。但随着模型越來越大、訓練資料越來越多，人們對于模型的了解反而越來越少。

就拿大語言模型的典型代表 GPT-4 來說，即便時至今日，它依然會對一些在人類看來很簡單的問題，給出錯誤的回答（如下圖所示的兩個案例）。

圖丨案例截圖（來源：朱澤園）

那麼，這到底是 GPT-4 本身的問題，還是它的訓練資料不足，亦或是它的數學能力太弱？其他模型會有這個問題嗎？

對于追求嚴謹的科學家來說，有必要思考這一系列問題的原因，并嘗試發現其背後存在的普适性定律。

6 個月前，來自 Meta 旗下的人工智能基礎研究實驗室（FAIR Labs）的朱澤園和合作者 MBZUAI 的李遠志教授，在研究大語言模型是“如何學習知識”的過程中，發現了一些意想不到的複雜情況。

譬如：有些知識，模型可以記住，但說不出來；有些知識，模型可以說出來，但是無法推演。

有些具備順序性的知識，比如成語“繼往開來”這四個字，始終是按順序出現的，是以不管大語言模型有多大以及訓練了多久，它都隻能記住正序，而無法記住逆序知識。這種涉及到“知識的順序性”的現象，被學術界稱為“逆轉詛咒”。

（來源：arXiv [3]）

為了克服這一難題，近日，FAIR Labs 實驗室提出了一種替代訓練方案名為“逆轉訓練”，大緻思路是對所有的資料，都正向和“逆向”同時訓練兩次，然後通過尋找最可靠的“逆向”訓練方法，來效地解決逆轉詛咒問題。

近日，相關論文以《逆轉訓練攻克逆轉詛咒》（Reverse Training to Nurse the Reversal Curse）為題在預印本平台 arXiv 上發表[1]。

作者包括 FAIR Labs 研究工程師奧爾加·戈洛夫涅娃（Olga Golovneva）、研究科學家朱澤園（Zeyuan Allen-Zhu）、研究科學家傑森·韋斯頓（Jason Weston）和研究科學家桑巴亞爾·蘇赫巴托爾（Sainbayar Sukhbaatar）。

圖丨相關論文（來源：arXiv）

提出逆轉訓練方案，攻克大語言模型的逆轉詛咒難題

其實，在探究大模型針對簡單的問題卻給出錯誤回答背後的原因時，朱澤園認為，過度追求大語言模型在基準資料集上的表現，也可能讓人類和通用人工智能漸行漸遠。

例如，最近發表在 Nature 上的 AlphaGeometry[2]，是 DeepMind 開發的一個 AI 系統，能夠解決國際數學奧林匹克競賽 30 道平面幾何題中的 25 道。

但它的主算法卻是一個沒有 AI 參與的暴力搜尋，搜尋的步驟從數百條由人工挑選的引理中選擇。

有沒有一種可能是，DeepMind 人工挑選了上百條為 30 道國際數學奧林匹克競賽題量身定做的引理呢？

“我們對此表示質疑（僅代表本團隊，并非 Meta 官方立場）。但從科學的角度來看，我們應該盡量避免人工幹預，以防‘有多少人工，就有多少智能’。” 朱澤園表示。

圖丨朱澤園（來源：朱澤園）

基于類似以上的擔憂，朱澤園提出了“語言模型實體學”這一新概念。

此概念主張，在實體學的啟發下化繁為簡，将“智能”分拆成多個次元，包括文法、知識、推理、解題等，并給每個次元建立全新的合成資料，搭建理想化的大語言模型訓練和測試環境，以探索模型所具備的普适性定律。類似在真空中研究牛頓定律，或是理想環境下研究氣體方程。

需要說明的是，研究人員并不應該局限于類似 GPT-4 這樣的個别模型，而是應該總結出在理想的資料集下，任何模型所展現出的普适性質。

“對于人工智能領域來說，通過在理想環境中去僞存真，我們可以排除資料作弊、人工挑選等因素，真正找出大語言模型的普适定律，并提出增強性能的方案。”朱澤園表示。

據了解，《語言模型實體學》項目的第一部分專注于文法研究，第二部分側重于推理研究，第三部分則聚焦于知識研究，其他更多部分的研究也在積極推進中，并在 Meta 内部立項，得到 FAIR 研究院的海量算力支援。

“不過因為發現過多，僅是其中第三部分‘知識研究’就拆成了至少三篇論文 Part 3.1、3.2、3.3，每篇都有幾個甚至十幾個結論，均已在 arXiv 上發表。”朱澤園說。

圖 | 《語言模型實體學》第三部示意圖（來源：作者 twitter）

對于發表在 Part 3.2 論文中的“知識的順序性”這一現象來說，朱澤園和李遠志最早是在理想環境中觀察到它，而後又在市面上可見的預訓練模型，如 GPT-4 和 LLaMA-2 中，驗證了它的存在。

那麼用“理想環境”而不是現實模型來做研究，有什麼好處呢？

譬如這個課題裡，在理想環境中我們可以固定知識的順序，也不用擔心測試資料的污染。

假如我們永遠都說“某某人，在 XXXX 年 X 月 XX 日出生”，以保證資料集中的知識都是人名在生日之前；然後，再提取出該資料集中一半的人員資訊，訓練模型的逆向知識提取能力，比如“在 XXXX 年 X 月 XX 日出生的人，叫什麼名字”。

我們就會發現，不管模型多大、訓練多久，它都隻能對這一半的人完成逆向知識提取（正确率 100%，因為這一半人在訓練集裡），而無法推演（generalize）到剩下一半的人（正确率 0%）。

圖 | 在理想環境下，所有逆向知識提取的正确率都幾乎是 0（來源：arxiv[3]）

換言之，理想環境下，不僅可以将測試集和訓練集完全分開，也能讓資料量無限增大，甚至還可以把模型打開，觀察出“為什麼”知識無法逆向提取，并得到提取知識的充分必要條件。

更重要的是，理想環境下的研究，可以推廣到包括 GPT-4 在内的現實模型上，也能觀察到“逆轉詛咒”。

比如，除了如上所說的成語逆轉，還可以向大語言模型詢問“西出陽關無故人”的上一句話，或是給出百科上名人的出生年月日/工作機關/城市，來反問大語言模型這個人名是誰。

“大量的測試告訴我們，現實模型也無法很好地回答這樣的逆序知識類問題。”朱澤園說。

不過，需要指出的是，在現實模型上很難确定造成這些錯誤回答的原因，究竟是模型訓練得不夠久，還是資料不夠多。

即便現實模型答對了，會不會它的訓練資料中看到了原題（也就是資料污染）。綜上，在現實模型上直接研究，很難得到令人信服的、科學的結論。

“這就是為什麼我們要做《語言模型實體學》的原因，即希望探索出一種全新的研究 AI 模型的思路。”朱澤園表示。

發現問題是一方面，要想解決“逆轉詛咒”，就是一個新的延伸課題了。為此，朱澤園和 FAIR Labs 實驗室的“推理記憶”課題組聯手，基于理想環境中的發現，給出現實生活中的一個解決方案——随機拆詞反轉訓練。

主要是把每 1-25 個連續 token（對應約 1-15 個英語單詞）随機拆成一組，在保持每組順序不變的前提下，将整個文章進行反轉。

同時使用正向的原文，和反轉後的文字對語言模型進行訓練。如果同一資料會多次進行反轉訓練，則可以每次用不同的随機方法拆詞，這在無形之中增加了資料的多樣性，進而增強大模型對知識的存取效率。

從另一方面來看，随機拆詞并翻轉也模拟了人類速讀。也就是說，當我們快速閱讀一段文字的時候，眼睛也在進行随機拆解，甚至也會無序地閱讀。包括在學習重要知識時，還會前後翻書和反複閱讀。

研究人員将上述方法稱為“逆轉訓練”，并且在 LLaMA-2 模型上做了真實資料的測試。

圖 | 在真實 LLaMA-2 模型上測試，逆轉訓練可以攻克逆轉詛咒（來源：arxiv[1]）

同時，他們還得到了一個重要的發現：如果正反向都進行訓練，既不會影響正向的訓練結果，又不會讓傳統的基準資料集得分降低。

對于《語言模型實體學》系列作品給應用領域帶來的影響，朱澤園認為會是非常全面的。作為該系列作品的一個衍生成果，《逆轉訓練攻克逆轉詛咒》很可能在幫助解決大語言模型的諸多問題之一的同時，在所有公司的所有應用場景中得到應用。

“當然，一切的理論研究走到實際落地都有一個過程。我歡迎所有的研究人員參考我們論文給出的理論指導建議，在實際應用中找到增益。”朱澤園說。

另外，值得一提的是，2024 年 7 月，朱澤園将在 ICML 2024 上，受邀開展《語言模型實體學》系列講壇（tutorial）課程。

緻力于挑戰人工智能的每個次元，希望探索出大語言模型的普适性實體定律

據了解，朱澤園大學就讀于清華大學實體系，博士畢業于美國麻省理工計算機系，是圖靈獎得主希爾維奧·米卡利（Silvio Micali）教授的弟子，後在美國普林斯頓大學和從事博士後研究，師從剛剛獲得圖靈獎的艾維·維格森（Avi Wigderson）教授。

他曾是國際資訊學奧林匹克競賽兩屆金牌、國際大學生程式設計競賽全球總決賽金牌的獲得者，也在谷歌全球程式設計挑戰賽（Google Code Jam）中獲得世界第二的成績。

在 2022 年加入 FAIR Labs 之前，朱澤園曾在微軟研究院總部任職。

“加入 FAIR Labs 以後，我被給予了 100% 的科研自由，可以獨立發起項目，選擇我認為最重要的人工智能課題進行長期研究。《語言模型實體學》項目，就是我所負責的長期項目。”朱澤園介紹說。

如上所說，《逆轉訓練攻克逆轉詛咒》，是該項目的一個衍生課題。

不過，在最早參與該課題時，朱澤園并不十分“積極”。這主要是因為他考慮到精力有限，是以對參與科研課題一貫持謹慎态度。

“當這一課題負責人蘇赫巴托爾聯系我時，我從理論的角度出發，告訴他已經在理想環境下證明了資料反向訓練有效。是以，我認為逆轉訓練這個方法太過簡單，隻需要多做點大規模的實驗而已。”他說。

但蘇赫巴托爾反問道：“那你當初為什麼要發表 LoRA 呢？”

這個問題促使朱澤園進行了長時間的思考和檢討，并最終做出了改變想法的決定。

其中，LoRA 是朱澤園在微軟研究院供職時參與開發的一個簡單有效的微調工具。當時他也曾認為該工具過于簡單，但如今後者已經成為行業内最常用的微調算法，業内幾乎無人不曉。

《逆轉訓練攻克逆轉詛咒》課題開始進行之後，朱澤園和合作者發現不同的逆轉訓練政策在效果上存在差異，與他們最初的預期不同。對此，他們也在論文中進行了詳細的比較。

“總的來說，如果一個算法簡易且有用，還不需要複雜的數學公式，這不正是我們人類最希望獲得的嗎？”朱澤園表示。

另外，在目前研究的基礎上，他告訴我們，《語言模型實體學》項目也制定了後續計劃，包括 2 個月内可以釋出的項目第二部分“語言模型推理研究”的兩篇論文，會在理想環境下研究并提高 AI 模型在國小數學題上的推理能力等。

朱澤園說：“我們有一個很遠大的目标，那就是在理想的環境裡去僞存真，挑戰人工智能的每一個次元，總結出大語言模型的普适實體定律。”

與此同時，他也認為，緻力于研究理想環境下的大語言模型的《語言模型實體學》項目，與大部分科研都不相同。

“在我眼中，這仿佛是一個新的學科和一個新的研究問題的方式，非常刺激。是以，我幾乎停下了手上一切科研方向，全身心地撲向其中。”他表示。

即便在研究過程中受到諸多批評和質疑，包括測得的資料是否過于理想化、可能太過局限，以及和實際有差異等，但他對此卻依然毫不擔心。

他始終奉行堅持日心說的意大利科學家喬爾丹諾·布魯諾（Giordano Bruno）曾經說過的這句話，“真理不會因為大多數人相信或不相信而改變”。

參考資料：

1. O.,Golovneva, Z., Allen-Zhu, J., Weston. et al. Reverse Training to Nurse the Reversal Curse. arXiv:2403.13799v1（2024）.https://doi.org/10.48550/arXiv.2403.13799

2. Trinh, T.H., Wu, Y., Le, Q.V. et al. Solving olympiad geometry without human demonstrations. Nature 625, 476–482 (2024). https://doi.org/10.1038/s41586-023-06747-5

3. Z. Allen-Zhu, Y. Li. Physics of Language Models: Part 3.2, Knowledge Manipulation.arXiv:2309.14402（2023）. https://arxiv.org/abs/2309.144027

排版：劉雅坤

Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

繼續閱讀

iPhone 16 系列手機模型曝光，外觀基本确定

大模型催生搜尋行業變革機遇，産品百花齊放效果幾何？

自我提升人生思維模型

【國中實體】《浮力》常考重難模型

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

中考數學常考幾何導角問題9種模型總結大全

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型