天天看點

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

雷鋒網 ai 科技評論按:去年年底的時候,大家都知道了 deepmind 的人工智能要開始玩星際了,今天deepmind

也正式釋出了論文和相關博文介紹了自己在這方面的成果,他們與暴雪聯手釋出了一系列工具,友善更多的研究者參與到(讓人工智能)玩星際2中來。雷鋒網

ai 科技評論編譯如下。

deepmind 一直抱有這樣的一個科學目标:建構能學會解決複雜問題的系統,以此來不斷推進人工智能的發展前沿。為此,deepmind 開發了各種各樣的智能體,然後在自己搭建的 deepmind lab 平台上用各種各樣的環境測試它們。

有一類重要的測試環境是遊戲。它們雖然不是專門為人工智能研究設計的,但畢竟人類可以玩得很好,它們也就是評估人工智能表現的一種重要方法。在圍棋和 atari 遊戲都玩得比較熟練了以後,deepmind 這次介紹了自己在新遊戲中的研究進展:星際2。

deepmind和暴雪一起釋出了sc2le,這是一個幫助研究如何讓人工智能玩學會星際2這個rts遊戲的工具包。此次釋出的 sc2le 中包括:

一個機器學習api,由暴雪開發,它能夠幫研究者和開發者接入遊戲。其中還首次包括了運作在linux上的工具。

一個匿名的遊戲replay資料集,目前隻有6萬5千場,在接下來幾周内會增加到50萬場左右。

deepmind的工具包pysc2的開源版本,研究者可以借助它輕松讓智能體使用暴雪的特征層api。

一篇deepmind和暴雪聯合完成的論文,它大緻介紹了環境的組成、在測試小遊戲中取得的初期基準成果、如何從replay監督學習,以及與遊戲内置的 ai 進行1v1的天梯對抗。

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

星際和星際2算得上是所有遊戲裡最大、最成功的那一批,玩家們在這些遊戲裡厮殺也有超過20年了。不僅星際2,第一代星際也已經被人工智能和機器學習研究者用作測試環境,每年的

aiide

上都會舉辦人工智能星際大賽。星際之是以如此長壽,有相當一部分原因是由于它豐富、多層面的遊戲過程,這樣它也就成為了理想的人工智能研究環境。

比如,星際的最終目标是要擊敗對手,但玩家還是需要執行一系列收集資源、造建築這樣的分目标并在它們之間找到平衡。而且,一場遊戲所花的時間短則幾分鐘,長則一小時,那麼在遊戲早期采取的行動就可能在很長一段時間内都看不到對應的收獲。最後,地圖上隻有一部分區域是可見的,智能體就需要綜合使用記憶和規劃能力,才能取得勝利。

除此之外,這個遊戲還有一些别的方面也對研究者有吸引力,比如每天都有衆多的玩家線上上遊戲中對抗。這就保證了會有海量的replay資料供智能體學習,而智能體将來也會有許許多多極具天賦的對手可以切磋。

不過,即便隻是星際的操作都是一項不小的挑戰,每時每刻可以選擇的基礎操作超過300種。這就跟

atari

遊戲形成了明顯的差別,它裡面可選的動作不超過10種(比如上下左右)。在此基礎上,星際中的操作也是有層次的、可以修改以及增強的,其中的許多操作都需要在螢幕上點選。就算隻是一個84x84那樣的小螢幕,所有可能的操作加起來也會高達上億種。

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

在這次的工具釋出以後,研究者就可以用暴雪自己的工具解決一些上面提到的麻煩,這樣就可以更友善地建構自己的任務和模型。

deepmind

的 pysc2 工具可以把環境分類打包,進而為強化學習智能體提供了一個靈活易用的界面,幫助它們玩遊戲。在此次釋出的初始版本中,pysc2

把遊戲中不同的元素劃分成了不同的“特征層”,比如不同類型的機關、生命值、地圖的可見性等等會互相分開,同時還能保持遊戲核心的視覺和空間元素。

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

sc2le工具包裡還包含一系列的測試小遊戲,它們把整個遊戲分為了多個不同的可控片段,這樣就可以測試智能體在特定任務上的表現,比如切換視角、采礦或者選擇機關等等。研究者可以在這樣的小遊戲中測試他們的技術,同時也可以幫助建立更多的測試小遊戲,便于更多的研究者繼續競争和評估。

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

以deepmind目前的研究進展,他們的智能體已經可以在這樣的特定任務小遊戲中發揮不錯的表現,但是到了整場遊戲,即便是

a3c 這樣比較強的基準 ai 也根本打不赢“簡單”的遊戲内置

ai。比如,下面動圖裡左邊的就是一個訓練早期的智能體,它沒法讓礦工采礦,這件事對人類來說不費吹灰之力。經過訓練之後,智能體表現出了有意義的動作,但是如果要讓它們有競争性的話,還需要在深度強化學習和相關領域有更大突破。

DeepMind和暴雪聯手釋出開發工具和replay資料集,讓更多AI研究者玩上星際2

deepmind的研究人員發現了一種讓智能體學到更強政策的技巧,就是模仿學習。這樣的學習方法在暴雪的幫助下也很快就會變得容易,他們已經答應會繼續釋出幾十萬局星際2天梯上的匿名遊戲replay。這不僅可以讓研究者用監督學習的方法訓練智能體,而且也為序列預測、長期記憶等等其它的研究領域提供了可能。

deepmind希望這些新釋出的工具可以讓人工智能大家庭在星際遊戲上已有的研究成果再前進一步,鼓勵更多的人從事深度強化學習研究,也讓研究者可以更輕松地跟上這個領域的前沿發展。deepmind也期待人工智能大家庭可以有一些精彩的發現。

<a href="https://www.leiphone.com/news/201704/mq6fewkkwoawskcc.html">阿裡推出多智能體雙向協調網絡bicnet,玩《星際争霸》堪比人類</a>

繼續閱讀