博弈論讓 AI 更加正确、高效，LLM 與自己競争

編輯 | 綠羅

想象一下，你有一位朋友對同一問題給出了不同的答案，具體取決于你提問的方式。

「秘魯的首都是哪裡？」會得到一個答案；「利馬是秘魯的首都嗎？」會得到另一個。你可能會有點擔心你朋友的智力，而且你幾乎很難相信他們給出的任何答案。

這正是許多大型語言模型 (LLM) 正在發生的事，這些超強大的機器學習工具為 ChatGPT 和其他人工智能奇迹提供了動力。開放式的生成性問題會産生一個答案，而涉及必須在選項之間進行選擇的判别性問題，通常會産生不同的答案。麻省理工學院的博士生 Athul Paul Jacob 表示：「當同一個問題的措辭不同時，就會出現脫節。」

為了使語言模型的答案更加一緻，并使模型整體更加可靠，Jacob 和他的同僚設計了一個遊戲，在這個遊戲中，模型的兩種模式被驅使着去尋找他們能達成一緻的答案。這個簡單的程式被稱為共識博弈（consensus game），讓 LLM 與自己競争，使用博弈論工具來提高模型的準确性和内部一緻性。

論文連結：https://openreview.net/forum?id=n9xeGcI4Yg

機器人公司 Field AI 的首席科學官 Shayegan Omidshafiei 表示：「探索這些模型内部一緻性的研究非常有限。這篇論文是第一篇通過巧妙而系統的方式解決這個問題的論文之一，它為語言模型建立了一個可以自己玩的遊戲。」

「這确實是一項令人興奮的工作，」谷歌研究院的研究科學家 Ahmad Beirami 補充道。他說，幾十年來，語言模型一直以同樣的方式生成對提示的響應。「麻省理工學院的研究人員提出了将遊戲引入這一過程的新穎想法，引入了一種完全不同的範式，這可能會催生一系列新的應用程式。」

将遊戲融入研究

這項新研究利用遊戲來改進人工智能，與過去的方法形成鮮明對比，過去的方法通過遊戲的掌握程度來衡量人工智能程式的成功。

例如，1997 年，IBM 的深藍計算機擊敗了國際象棋大師 Garry Kasparov，這對于所謂的思維機器來說是一個裡程碑。十九年後，一個名為 AlphaGo 的谷歌 DeepMind 程式在與前圍棋冠軍李世石的五場比賽中赢得了四場，揭示了另一個人類不再稱霸的競技場。機器在跳棋、兩人撲克和其他「零和」遊戲中也超越了人類，在這些遊戲中，一個玩家的勝利必然會導緻另一個玩家的失敗。

Athul Paul Jacob 幫助設計了共識博弈，為大型語言模型提供了一種提高準确性和可靠性的方法。

外交（Diplomacy）遊戲給人工智能研究人員帶來了更大的挑戰，這是 John F. Kennedy 和 Henry Kissinger 等政治家最喜歡的遊戲。遊戲中不僅有兩名對手，還有七名玩家，他們的動機可能很難了解。為了獲勝，玩家必須進行談判，達成任何人都可以随時違反的合作安排。

外交是如此複雜，以至于 Meta 的一個團隊在 2022 年看到其人工智能程式 Cicero 在 40 場遊戲中開發出「人類水準的玩法」時感到非常高興。雖然它沒有擊敗世界冠軍，但 Cicero 在與人類參與者的比賽中表現出色，進入了前 10%。

在該項目期間，Jacob（Meta 團隊的成員）對 Cicero 依賴語言模型來生成與其他玩家的對話這一事實感到震驚。他感覺到了尚未開發的潛力。他說，團隊的目标是「為了玩這個遊戲，我們能夠建構最好的語言模型。」但如果他們轉而專注于創造能夠提高大型語言模型性能的最佳遊戲呢?

「兩廂情願」的互動

2023 年，Jacob 開始在麻省理工學院研究這個問題，與 Yikang Shen、Gabriele Farina 和他的顧問 Jacob Andreas 合作，研究什麼将成為共識博弈。核心思想來自于将兩個人之間的對話想象成一場合作遊戲，當聽衆了解說話者試圖傳達的内容時，成功就會發生。特别是，共識博弈旨在協調語言模型的兩個系統——處理生成問題的生成器和處理判别性問題的判别器。

經過幾個月的停頓和啟動，團隊将這一原則融入到了一款完整的遊戲中。首先，生成器收到一個問題。它可以來自人類，也可以來自預先存在的清單。例如，「巴拉克·奧巴馬出生在哪裡？」然後生成器會收到一些候選響應，比如說檀香山、芝加哥和内羅畢。同樣，這些選項可以來自人類、清單或語言模型本身執行的搜尋。

但在回答之前，生成器還會被告知是否應該正确或錯誤地回答問題，具體取決于公平抛硬币的結果。

如果是正面，那麼機器會嘗試正确回答。生成器将原始問題及其選擇的響應發送給鑒别器。如果鑒别器确定生成器有意發送了正确的響應，則它們每個人都會得到一分，作為一種激勵。

如果硬币反面朝上，生成器會發送它認為錯誤的答案。如果鑒别器認為是故意給出錯誤的反應，他們都會再次得到一分。這裡的想法是激勵協定。「這就像教狗變戲法，」Jacob 解釋道。「當他們做正确的事時，你就給他們獎勵。」

生成器和鑒别器也各自以一些初始「信念」開始。它們采用與不同選擇相關的機率分布的形式。例如，生成器可能認為，根據從網際網路收集的資訊，奧巴馬出生在檀香山的可能性為 80%，出生于芝加哥的可能性為 10%，内羅畢的可能性為 5%，5% 的可能性出生在其他地方。

鑒别器可以從不同的分布開始。雖然這兩個「玩家」仍會因達成協定而獲得獎勵，但他們也會因偏離最初信念太遠而被扣分。這種安排鼓勵玩家将他們對世界的了解（同樣來自網際網路）納入他們的反應中，這應該會使模型更加準确。如果沒有這樣的東西，他們可能會同意像 Delhi 這樣完全錯誤的答案，但仍然可以獲得積分。

對于每個問題，兩個系統都會互相進行大約 1,000 場比賽。在這些無數次疊代的過程中，每一方都會了解對方的信念并相應地修改其政策。

最終，生成器和判别器在進入稱為納什均衡（Nash equilibrium）的狀态時開始更加一緻。這可以說是博弈論的核心概念。它代表了遊戲中的一種平衡——沒有玩家可以通過改變政策來改善個人結果。例如，在石頭剪刀布中，當玩家選擇三個選項中的每一個恰好有三分之一的時間時，他們會表現得最好，而使用任何其他政策時他們總是會表現得更差。

在共識博弈中，這可以通過多種方式發揮作用。判别器可能會觀察到，每當生成器發送奧巴馬出生地「檀香山」這個詞時，判别器就會說「正确」，進而得到一個分數。經過重複的遊戲後，生成器和鑒别器将了解到，他們将因繼續這樣做而獲得獎勵，并且兩者都不會有任何動力去做其他任何事情。這個共識代表了這個問題的納什均衡的許多可能的例子之一。麻省理工學院的研究小組還依賴于納什均衡的修改形式，其中包含了參與者先前的信念，這有助于讓他們的反應立足于現實。

研究人員觀察到，最終的效果是使玩這個遊戲的語言模型更加準确，并且無論問題如何提出，都更有可能給出相同的答案。為了測試共識博弈的效果，團隊在具有 70 億到 130 億參數的各種中等規模語言模型上嘗試了一組标準問題。這些模型通常比沒有玩過的模型獲得更高的正确響應百分比，甚至比那些擁有多達 5400 億個參數的模型還要高。玩遊戲還提高了模型的内部一緻性。

原則上，任何 LLM 都可以從與自己進行的遊戲中受益，并且在标準筆記本電腦上玩 1,000 輪隻需要幾毫秒。「整個方法的一個好處是，」Omidshafiei 說，「它的計算量非常輕，不需要對基礎語言模型進行訓練或修改。」

用語言玩遊戲

在取得初步成功後，Jacob 現在正在研究将博弈論引入 LLM 研究的其他方法。初步結果表明，已經很強大的 LLM 可以通過使用任意數量的較小模型玩不同的遊戲（暫時稱為內建遊戲）來進一步提高。主要 LLM 将至少有一個較小的模型作為盟友，并且至少有一個較小的模型扮演對抗角色。如果主要的 LLM 被要求說出美國總統的名字，隻要它選擇與盟友相同的答案，它就會得到一分，如果它選擇與對手不同的答案，它也會得到一分。

測試表明，這些與更小的模型的互動不僅可以提高 LLM 的表現，而且無需額外的訓練或參數更改即可實作這一點。

Ian Gemp 将博弈論引入現實世界，這可以使大型語言模型在戰略情況下提供幫助。

而這僅僅是開始。谷歌 DeepMind 的研究科學家 Ian Gemp 表示，由于各種情況都可以被視為遊戲，是以博弈論的工具可以在各種現實世界的環境中發揮作用。在 2024 年 2 月的一篇論文中，他和同僚重點讨論了需要更精細的交流而不僅僅是問題和答案的談判場景。「這個項目的主要目标是使語言模型更具戰略性，」他說。

論文連結：https://arxiv.org/abs/2402.01704

他在一次學術會議上讨論的一個例子是期刊或會議接受論文的審查過程，特别是在初次送出的論文受到嚴厲審查之後。鑒于語言模型将機率配置設定給不同的反應，研究人員可以建構類似于撲克遊戲設計的遊戲樹，繪制可用的選擇及其可能的後果。「一旦你這樣做了，你就可以開始計算納什均衡，然後對一堆反駁進行排序，」Gemp 說。該模型本質上告訴您：這是我們認為您應該回複的内容。

借助博弈論的見解，語言模型将能夠處理更複雜的互動，而不僅僅局限于問答類型的問題。「未來的巨大回報與更長的對話有關，」Andreas 說。「下一步是讓人工智能與人互動，而不僅僅是另一種語言模型。」

Jacob 将 DeepMind 的工作視為共識遊戲和內建遊戲的補充。「從高層次上來說，這兩種方法都将語言模型和博弈論結合起來，」他說，盡管目标有些不同。Jacob 表示，雖然 Gemp 小組正在将常見情況轉化為遊戲格式以幫助制定戰略決策，但「我們正在利用我們對博弈論的了解來改進一般任務中的語言模型。」

Jacob 說，目前，這些努力代表了「同一棵樹的兩個分支」——增強語言模型功能的兩種不同方式。「我的願景是在一兩年内，這兩個分支将融合。」

參考内容：https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/