強化學習AI能帶你1打5嗎？MIT新研究：AI并不是人類的最佳隊友【新智元導讀】強化學習的AI在對抗遊戲中表現十分強力，但被虐的隻有人類玩家。如果這麼強的AI做了隊友又該怎麼樣？MIT最近研究表明，AI和人類玩家之間的配合可以說是沒有配合了，根本看不懂隊友給的各種暗示資訊！

編輯：lrs

強化學習的ai在圍棋、星際争霸、王者榮耀等遊戲以絕對的優勢碾壓了人類玩家，也證明了思維能力可以通過模拟來得到。

但如果這麼強的ai成為了你的隊友，能被帶飛嗎？

mit林肯實驗室的研究人員最近的在紙牌遊戲hanabi（花火）中人類和ai agenet之間的合作研究結果表明，盡管rl agent的個人表現能力十分出色，但當跟人類玩家一起比對的時候，卻隻會讓人直呼太坑。

強化學習AI能帶你1打5嗎？MIT新研究：AI并不是人類的最佳隊友【新智元導讀】強化學習的AI在對抗遊戲中表現十分強力，但被虐的隻有人類玩家。如果這麼強的AI做了隊友又該怎麼樣？MIT最近研究表明，AI和人類玩家之間的配合可以說是沒有配合了，根本看不懂隊友給的各種暗示資訊！

https://arxiv.org/pdf/2107.07630.pdf

hanabi是一個需要玩家之間互相溝通合作取勝的遊戲，在這個遊戲中，人類玩家更喜歡可預測的基于規則的ai系統，而非黑盒的神經網絡模型。

一般來說，最先進的遊戲機器人使用的算法都是深度強化學習（deep reinforcement learning）。首先通過在遊戲中提供一個agent和一組可能的候選action集合，通過來自環境的回報機制來進行學習。在訓練過程中，還會采用随機的探索action來最大化目标，進而獲得最優的action序列。

深增強學習的早期研究依靠人類玩家提供的遊戲資料進行學習。最近研究人員已經能夠在沒有人類資料的情況下，純粹依靠自我博弈來開發rl agent。

mit 林肯實驗室的研究人員更關注讓如此強大的ai 如何成為隊友，這項工作也能讓我們進一步了解是什麼阻礙了強化學習的應用隻能局限于電子遊戲，而無法擴大到現實應用中。

最近的強化學習研究大多應用于單人遊戲（atari breakout 打磚塊）或者對抗性遊戲（星際争霸，圍棋），其中ai 主要的對手是人類玩家或者是其他的ai 機器人。

在這些對抗中，強化學習取得了空前的成功，因為機器人對這些遊戲并沒有一些先入為主的偏見和假設，而是從零開始學習打遊戲，并以最好的玩家資料進行訓練。

事實上，ai學會打遊戲以後，甚至還會自己創造一些技巧。一個有名的例子是deepmind的alphago在它的比賽中下了一步棋，但分析師當時認為這一步棋是一個錯誤，因為它違背了人類專家的直覺。

但同樣的舉動卻帶來了不一樣的結果，ai最後憑借這手成功擊敗了人類。是以當rl agent與人類合作時，研究人員認為同樣的聰明才智也可以發揮作用。

在mit研究人員的實驗中選擇了紙牌遊戲hanabi，其中包括兩到五名玩家，他們必須合作以特定的順序出牌。hanabi 很簡單，但它也是一個需要合作和有限的資訊的遊戲。

hanabi遊戲發明于2010年，由二到五個玩家參與，玩家需以正确的順序一起打出五種不同顔色的牌。遊戲特點：所有玩家都可以看到對方的牌，但卻看不到自己的牌。

根據遊戲規則，玩家可以互相提示自己手裡的牌（但僅限于牌的顔色或數字），讓其他玩家可以推斷他們應該出什麼牌，但提示的次數是有限制的。

正是這種高效溝通的行為使hanabi具備了一種科學魅力。例如，人類可以很自然地了解其他玩家的提示，哪張卡片是可出的，但是機器本質上無法了解這些提示。

到目前為止人工智能程式已經可以在玩hanabi花火遊戲時赢得很高分數，但隻限于與其他類似的智能機器人一起玩。在不熟悉其他玩家的遊戲風格或者有「臨時」（從未一起玩過的）玩家的情況下，對程式的挑戰最大，也更接近真實情況。

近年來，幾個研究團隊探讨了可以玩hanabi的ai機器人的發展，其中一些強化學習agent使用符号ai。

ai的評估主要采用他們的性能，包括self-play（和自己玩），cross-play（和其他類型的agent一起玩），human-play（和人類合作）。

和人類玩家之間的cross-play，對于衡量人與機器之間的合作尤為重要，也是論文實驗的基礎。

為了檢驗人工智能協作的有效性，研究人員使用了smartbot，這是一種基于規則的self-play人工智能系統，還有一種在跨遊戲和rl算法中排名最高的模型hanabi機器人other-play。

在實驗中，人類參與者與ai agent一起玩了幾次hanabi遊戲，每次隊友的ai都不相同，實驗人員并不知道在和哪個模型一起玩。

研究人員根據客觀和主觀名額評估了人類ai合作的水準。客觀名額包括分數、錯誤率等。主觀名額包括人類玩家的經驗，包括他們對ai團隊成員的信任和舒适程度，以及他們了解ai動機和預測其行為的能力。

兩種人工智能模型的客觀表現無顯著差異。但研究人員預計，人類玩家對other-play有更積極的主觀體驗，因為他們接受過與其他玩家合作的訓練。

根據對參與者的調查，與基于規則的smartbot agent相比，經驗豐富的hanabi玩家在其他遊戲rl算法方面的經驗較少，成功的一個關鍵點是為其他玩家提供僞裝線索的技能。

例如，說「一個方塊」卡放在桌子上，你的隊友手裡拿着兩個方塊。當你指着卡片說「這是兩張」或「這是一個正方形」時，你暗地裡告訴你的隊友玩這張卡片，而不告訴他關于卡片的全部資訊。一個經驗豐富的玩家會立刻就能夠領會這個提示。但向ai 隊友提供相同類型的資訊證明要困難得多。

一個參與者表示，我已經給了隊友很明顯的提示了，但他根本就沒用，我不知道為什麼。

一個有趣的現實是，other-play一直在避免建立「秘密」的約定，他們隻是在執行self-play時開發的這些預定規則。這使得other-play成為其他ai算法的最佳隊友，盡管ai算法并不是其訓練計劃的一部分。但研究人員認為，這是他在訓練過程中已經假設了會遇到哪些類型的隊友。

值得注意的是，other-play假設隊友也針對zero-shot 協調進行了優化。相比之下，人類hanabi玩家通常不會使用這種假設進行學習。

遊戲前正常設定和遊戲後複盤是人類hanabi玩家的常見做法，使人類學習更容易獲得few-shot協調的能力。

研究人員表示，目前的研究結果表明，人工智能的客觀任務表現（self-play和cross-play）在與其他ai模型合作時，可能與人類的信任和偏好無關。

這就産生了一個問題：哪些客觀名額與主觀的人類偏好相關？

鑒于訓練基于rl的agent所需的資料量巨大，訓練環中的人是不可行的。是以，如果我們想訓練被人類合作者接受和評估的ai agent，我們需要找到可訓練的，可以替代或與人類偏好密切相關的目标函數。

同時，研究人員也說明，不要将hanabi實驗的結果外推到他們無法測試的其他環境、遊戲或領域。

論文還承認了實驗中的一些局限性，研究人員正在努力解決這些局限性。例如，受試者群體很小（隻有29名參與者），并且偏向于精通hanabi的人，這意味着他們已經預先定義了ai團隊成員的行為期望，并且更有可能對rl agent有負面體驗。

然而，研究結果對未來加強學習研究具有重要意義。

如果最先進的rl agent甚至不能在一個限制性和窄範圍的遊戲中成為一個可以接受的合作者，那麼我們真的應該期待同樣的rl技術在應用于更複雜、更微妙、更具後果性的遊戲和現實世界的情況時隻是可以用。

在技術和學術領域，關于強化學習的争論很多，而且确實如此，研究結果也表明不應将rl系統的顯著性能視為在所有可能的應用中都能獲得相同的高性能。

在學習型智能體在複雜的人類機器人互動等情況下成為有效的合作者之前，需要更多的理論和應用工作。

參考資料：

繼續閱讀

為了看看AI有多強，有人帶它玩了一次“劇本殺”

硬體丨 AMD預計最早2023年推出整合AI引擎的CPU

聲音為什麼适合打造品牌強化心智

第7代高通AI引擎：透過AI，看見未來

5分鐘攝像頭抓拍一次，居家一天至少89次！尚德員工：連廁所都不敢上

玩了一場劇本殺，同車隊友“不是人”

2022樂橙新品釋出會：14款新品齊發軟體硬體全面更新

有沒有給視訊配音的軟體？分享能給視訊配音的軟體

别讓ChatGPT跑了

梗圖搜尋神器來了！還能搜視訊，網友：找了六年的梗圖兩分鐘解決

用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

谷歌“狂飙”生成式AI賽道，最新模型可憑文字、圖檔“創作”音樂

ChatGPT發瘋怎麼辦？小冰李笛：兩個關鍵，我可破之

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI