天天看點

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

為了提高人工智能水準,DeepMind 與暴雪在戰網天梯中開放了 AlphaStar:玩家隻要進行申請并通過就可以和這個最強 AI 進行線上對決了。而且現在,AlphaStar 已經可以使用全部三個種族。

然而,與圍棋人工智能 AlphaGo 走過的軌迹完全不同,在幾個月的發展之後,人工智能的遊戲似乎完全沒有長進,反而是各路人類玩家獲得了經驗:他們找到了各種各樣「戲耍」AI 的方法。

我們找到了 AlphaStar 近期人機大戰錄像中的三個:

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施
點選連結檢視

在兩場神族對戰蟲族的比賽中,AlphaStar(P)面對目前全球排名第 50 的 Bly(Z),從頭到尾毫無還手之力。

首先是第一場:相比此前和 AlphaStar 交手的 LiquidTLO,蟲族選手 Bly 更加年長一些——他是一名從魔獸争霸 3 轉型的星際 2 選手,已年過 30。然而,在兩場比賽中人類玩家使用簡單的單礦 Rush 戰術獲得了幾乎相同的勝利。人們紛紛表示:AI 最近的發展似乎僅限于「學會了在聊天頻道裡發表情」。

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

AlphaStar 的人族實力如何?在對戰全球排名第 3 的 Neeb(神族)時,AlphaStar 的表現。

可以看到,雖然 AI 在使用人族時已經學會了使用女妖和死神對敵人進行騷擾,但在正面進攻不利,又被 Neeb 偷家的情況下還是敗下陣來,整場比賽用時 13 分鐘。

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

這可能是目前最為高端的「人機大戰」了:AlphaStar vs Serral。

DeepMind 當然也找來了目前星際争霸 2 最強的玩家,芬蘭蟲族選手 Serral 進行了人機對決。在這場 16 分鐘的比賽裡,Serral 和 AI 進行了正面的硬碰硬戰鬥。然而看起來在這種比賽裡任何一方出現短闆就會造成最終的失利。有評論表示:看起來 Serral 比 AlphaStar 更像是 AI。

以下引用一位網友對比賽的深度解讀:

更糟糕的是,人類玩家似乎找到了對抗 AlphaStar 的方法。但現在,DeepMind 頻繁地更改自己的賬号,使得它們更加難以追蹤。從比賽中可以看出智能體(agent)具有幾點特征:

1. 在對抗人類玩家上實作了巨大飛躍,但它依然無法真正了解遊戲概念;2. 未能對大量常見遊戲政策做出适時回應;3. 無法在比賽中根據人類對手做出調整,始終堅持設定的遊戲腳本;4. 除了人族外,其他智能體在宏觀和微觀行動中表現出了娴熟的技能,但在建築物走位方面存在困難,經常将己方機關鎖在基地内;5. 在人族遊戲中表現最差,蟲族表現最佳(有争議);6. 在蟲族遊戲中政策最為單調。

DeepMind《星際争霸 2》AI 對抗人類玩家的發展曆程

星際争霸 2 是人類遊戲史上最困難、最成功的即時戰略遊戲,這一系列遊戲的曆史已經超過 20 年。星際争霸長盛不衰的部分原因在于其豐富的多層次遊戲機制,對于人工智能研究來說,這是一個非常接近現實世界的虛拟環境。

星際争霸擁有平衡的遊戲規則,以及諸多資訊和需要控制的變量。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味着遊戲中提早執行的操作也許會很長時間不見成效。最後,由于戰争迷霧的存在,地圖對于玩家隻有部分顯示,這意味着智能體必須結合記憶與規劃才能成功。

2017 年,DeepMind 宣布開始研究打即時戰略遊戲《星際争霸 2》的人工智能。

2018 年 12 月 10 日,AlphaStar 擊敗了 DeepMind 公司裡的最強玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已經可以 5:0 擊敗職業玩家 TLO 了(雖然 TLO 是蟲族玩家,但解說們認為他在遊戲中的表現大概能有 5000 分水準);又過了一個星期,12 月 19 日,AlphaStar 同樣以 5:0 的比分擊敗了職業玩家 MaNa。

那麼 AlphaStar 是如何學會打《星際争霸 2》的呢?

AlphaStar 的行為是由一種深度神經網絡生成的,該網絡從原資料界面(機關清單與它們的特性)接收輸入資料,輸出構成遊戲内行為的指令序列。具體來說,該神經網絡在單元中使用了一個 transformer 作為軀幹,結合了一個深度 LSTM 核、一個帶有 pointer 網絡的自動回歸政策 head 以及一個中心價值基線。

AlphaStar 也使用到了全新的多智能體學習算法。神經網絡最初通過暴雪公開的匿名人類遊戲視訊以監督學習進行訓練。這讓 AlphaStar 能夠通過模仿進行學習天梯玩家的基礎微操與宏觀操作政策。

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

AlphaStar 聯盟。最初是通過人類玩家的遊戲回放視訊進行訓練,然後與其他對手對抗訓練。每次疊代就比對新的對手,當機原來的對手,比對對手的機率和超參數決定了每個智能體采用的的學習目标函數,保留多樣性的同時增加難度。智能體的參數通過強化學習進行更新。最終的智能體采樣自聯盟的納什分布(沒有更換)。

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

随着自我博弈的進行,AlphaStar 逐漸開發出了越來越成熟的戰術。DeepMind 表示,這一過程和人類玩家發現戰術的過程類似:新的戰術不斷擊敗舊的戰術。

DeepMind AlphaStar 現場首秀落敗于人類玩家 MaNa

今年 1 月,DeepMind 的 AlphaStar 終于首次在世人面前亮相。但在對陣人類職業玩家、前 WCS 亞軍 MaNa 的一場現場比賽中,人工智能卻被人類「狡詐」的戰術迷惑,遺憾落敗。

AlphaStar被職業玩家戲耍:在星際2上,人工智能無計可施

在幾場展示 AI 實力的 Replay 鋪墊之後,AlphaStar 現場比賽卻輸了。面對剛剛從電腦前起身的 MaNa,DeepMind 的兩位科學家 David Sliver 與 Oriol Vinyals 隻能露出尴尬的微笑。

在這場比賽中,AI 的一個缺陷暴露出來:除了特定的分兵戰術,智能體并沒有形成靈活的兵力配置設定概念。MaNa 采取的政策是:棱鏡帶着兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續騷擾。是以,面對 MaNa 靈活的出兵政策,AlphaStar 隻能被動應戰,因而也無法形成對 MaNa 的有效進攻,也導緻了最終的落敗。

毫無疑問,作為人工智能領先技術的研究機構,DeepMind 的 AlphaGo 和 AlphaFold 等項目不僅引發了全球對于人工智能技術的關注熱潮,同時也為新技術在一些領域的落地找到了方向。然而在星際争霸 2 上,人工智能遭遇了前所未有的挑戰,不斷燒錢的 DeepMind 能否最終找到解決之道?

繼續閱讀