本文來自AI新媒體量子位(QbitAI)
一直隻聽說你們AI圈要打星際,怎麼忽然打起DOTA了!
今天一早,AI似乎震驚了不少同學:在堪稱“DOTA圈世界杯”的TI7邀請賽上,頂級選手被AI完爆。而且,這個AI隻訓練了兩周……
△ 先來看下最後分出勝負時的畫面

在TI7主舞台上被AI“完爆”的,是Dendi,NAVI戰隊的烏克蘭職業DOTA2選手,從DOTA1開始打了小半輩子,擅長中單solo,被評價為大局觀強,操作犀利,手速極快。
Dendi同時也是一名非常有想象力的選手,他經常會做出令人意想不到的事情,但往往也能收到意想不到的效果。
可惜,這次他遇到了可惜遇到了AI。
打敗了Dendi的這個AI,是馬斯克等人創立的人工智能非營利機構,OpenAI悄無聲息研究出來的,如今一舉搞了個大新聞。
第一局,開場5分鐘,Dendi就打出了gg;
第二局,從開始到gg不到3分鐘。
Dendi的手都在抖。
Dendi也不是唯一的“受害者”,上周,這個AI還和世界級中單1v1選手SumaiL、被稱為“天才少年”的Arteezy等很多職業玩家交過手,都沒輸。
我們再來看一下剛剛出爐的Dendi被虐全程視訊:
△ 大戰全程視訊
說公道話,你們邀請汽車參加人類賽跑,這本來就不合适。不過,我們接下來還是要科學地分析一下DOTA2這個賽場,和這位橫空出世的AI選手。
對于AI來說,DOTA 1v1是一個包含隐藏資訊的複雜遊戲,想要打好這個遊戲,AI需要學會計劃、攻擊、欺騙對手。
而且,不要以為AI是靠手速快取勝的,雖然我們平時會稱贊某些玩家手速快,但APM并不是決定遊戲勝負的關鍵,這個AI的APM也并不比人類高。
要在DOTA裡獲勝,需要玩家對對手的操作建立一種“直覺”,然後做出應對。比賽結束後,OpenAI還在YouTube上專門發視訊秀了一下各種操作:
這個AI現在會補刀、會卡位、會長途追擊敵方英雄,也會誘敵到塔下。也就是說,它掌握了通過目前的狀況,預測地圖上其他機關會如何移動的技能。
這些技能,完全是通過自己和自己對局學會的,而且沒有用到模仿學習、樹搜尋等模型。
△ 從左到右分别是:Dendi、主持人、兩位OpenAI研究員、OpenAI的主機箱
OpenAI的研究員在賽後采訪中說,他們的AI從零開始達到這個水準,隻需要兩周;要打敗DOTA的内置程式,也就是和普通玩家一樣能打得過電腦,隻需要再訓練一個小時。
“Bloody hell!”主持人聽完給出了一句簡短的回應。
訓練AI打DOTA隻是第一步,這個項目的終極目标,是讓AI能在雜亂的、甚至有人類内的環境中完成設定的目标,比如說外科手術。
當然,打DOTA這個問題也還沒有真的完成,現在還隻是1v1,讓AI學會合作打5v5,還有很長的路要走。
怎麼看這件事?這是Reddit上最好的一條評論。來自網友Screye,量子位搬運如下。
好吧,我對DOTA還算有所了解(玩了8年)。我試着談一下。
這個AI擊敗了一衆頂級DOTA玩家。(Sumail,RTZ,Dendi)
兩名玩家在一條峽谷對攻,獲勝條件是摧毀對方的防禦建築,或者殺掉對方兩次以上。每30秒會有一波兵線進入峽谷,幫助應用攻擊對方。殺敵對方的兵線可以獲得金錢,并購買裝備提升等級。
對戰采用了迷霧模式,每個玩家隻能看到附近一定距離内的情況。不過需要強調的是,這種1v1的對戰,并不是DOTA遊戲正常的模式(5v5)。
不過這種1v1的對戰,的确可以用來在兩個玩家之間一決高下,看看誰的操作技能更好。
AI是跟自己對戰訓練的。不過,DOTA的各種對戰視訊,或者說人類玩家的相關資料,都是可以公開獲得的。
一個專業DOTA玩家大約每分鐘要執行200-300個操作,包括行動、法術、攻擊等指令。在這方面,AI的手速應該不會弱于人類頂級玩家。
DOTA中的英雄角色攻擊之前,會配有特定的動作,這些動作施展之後,可以誘使對手也施展特定動作的回應,此時玩家可以發出指令取消動作。
另外法術和技能釋放之後,會有一個冷卻時間,在這段時間裡這個法術或技能無法再次釋放,是以這些都是有限的資源,如何使用也是一種技巧。
當然這些進階動作遠不止這些。
在這次的對抗中,人工智能已經掌握了上述基本和進階動作,而且會用多種不同的政策展開攻擊。而且有很多需要一年以上聯系才能掌握的進階操作,例如Creep pulling,coolodown,mana abuse以及動畫取消。
總之,人工智能的風格似乎非常“人性化”,不像是一個機器。
DOTA是一個依賴戰略(宏觀和微觀)的遊戲,現在人工智能也殺進來了,我覺得這是一個大事兒。這個遊戲需要考慮多方面因素,例如傷害的輸出、承受,法力和技能的消耗與冷卻等等,這些很難,我很想知道人工智能的政策到底是怎樣指定的。
—— 完 ——
本文作者:李林 若樸 假裝
原文釋出時間: 2017-08-12