天天看點

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

編譯 |ZeR0

編輯 |漠影

新的索尼大法來了!

智東西2月10日報道,今日,索尼AI部門Sony AI重磅宣布,其AI程式擊敗了世界上最頂級的賽車遊戲選手,并登上國際學術頂刊Nature的封面。

論文連結:

https://www.nature.com/articles/s41586-021-04357-7

這是繼AI在撲克、象棋、圍棋、星際争霸、DOTA等遊戲擊敗人類冠軍選手後,遊戲AI實作的又一裡程碑。

作為全球首個能夠在高度拟真賽車模拟遊戲中戰勝最強人類選手的賽車AI智能體,索尼的賽車遊戲AI GT Sophy僅用一兩天磨練戰術和技巧,就做到了超過賽車模拟遊戲《GT賽車》中可以擊敗95%的人類玩家。在訓練總計45000小時後,這個AI程式已經能與頂級GT賽車玩家一較高下。

相比此前AI已經掌握的棋牌類遊戲及部分多人政策遊戲,《GT賽車》更加複雜,因為它高度模拟現實世界,每輛車、每條軌道都經過模組化,視覺、音頻以及動态方面全部盡可能地還原現實世界的駕駛體驗。

這使得AI必須具備極強的持續判斷和快速反應能力,在高速變動的條件下,綜合考量摩擦、空氣動力學、駕駛路線、速度、方向等各種因素,在距離對手幾英寸的範圍内,對具有複雜非線性動力學的車輛進行實時控制,并知道如何在不違規的前提下超越對手。

“在一場正面競賽中如此超越傑出的人類車手,是AI領域的一項裡程碑式成就。”共同撰文的斯坦福大學汽車研究中心聯席主任克裡斯·格迪斯(Chris Gerdes)教授相信,用于開發該AI的技術有望在自動駕駛汽車軟體中發揮作用。

GitHub連結:

https://sonyai.github.io/gt_sophy_public/

一、比玩星際争霸更強的智能體,精通控制、戰術和禮儀

GT Sophy研究項目啟動于2020年4月,是一個使用新型深度強化學習平台進行訓練的自主AI智能體,也是Sony AI自2019年11月成立以來一直緻力于應對的關鍵挑戰之一。

Sony AI以日本、美國和歐洲三地為據點,重點推進遊戲、成像、傳感三個AI旗艦項目。Sony AI全球負責人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎!”

而今日登上Nature封面的賽車遊戲AI,正是Sony AI韬光養晦、籌謀已久的大招!

過去兩年間,Sony AI團隊、《GT賽車》系列背後的遊戲開發工作室Polyphony Digital(PDI)以及索尼互動娛樂(SIE)的雲遊戲團隊密切合作,使用SIE管理的雲遊戲基礎設施訓練這個AI。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

為了盡可能重制現實世界的賽車環境,PDI為PlayStation 4建立了超現實主義驅動模拟器GT Sport,并提供API通路。

GT Sport配備了一些最新的汽車動力學模拟,逼真地還原了賽車、賽道乃至空氣阻力、輪胎摩擦等實體現象,并在汽車制造商的指導下嚴扣從車身曲線、車身面闆間隙到大燈形狀等每個細節。

該模拟器是與國際汽聯合作設計的,在全球擁有超過40萬人的電子競技社群,它帶來了一個具有明确規則和判斷标準的公平賽車環境。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

GT Sophy即是在這個終極模拟環境中訓練而出,同樣,分布式訓練平台DART也對于該AI新成果功不可沒。

基于這個定制平台,Sony AI研究人員能在SIE雲遊戲平台的PlayStation 4控制台上訓練GT Sophy。

DART允許研究人員輕松指定實驗,在雲資源可用時自動運作,并收集可以在浏覽器中檢視的資料。此外,該平台還管理PlayStation 4控制台、代理計算資源和GPU,用于跨資料中心的訓練。

它能通路1000多個PlayStation 4控制台,每個都用于收集訓練GT Sophy的資料或評估訓練有素的版本。該平台由必要的計算元件(GPU、CPU)組成,用于與大量PlayStation 4進行互動,并支援長時間的大規模訓練。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

DART使得Sony AI的研究團隊能夠同時無縫運作數百個實驗,并探索将GT Sophy提升到更高水準的技術。

在這些基礎設施的支援下,僅在一兩天内,GT Sophy就做到超過GT Sport中約95%的選手。經過10天、總計45000小時的駕駛學習,GT Sophy在所有三條賽道上取得了超人般的計時賽表現。

為了驗證這個賽車遊戲AI的實力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車挑戰賽”中,與世界上最優秀的四名GT賽車手同台競技,并成功超過這些頂級人類選手。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

二、頂級賽車遊戲AI是怎樣煉成的?

為了打造出超強賽車遊戲AI,Sony AI研究人員和工程師開發了創新的強化學習技術,包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓練算法、一種可以了解的賽車規則編碼,以及一種促進獲得細微的賽車技能的訓練方案。

深度強化學習是街機遊戲、國際象棋、圍棋等複雜政策遊戲及其他實時多人政策遊戲中大多數AI裡程碑的關鍵組成部分,特别适合開發遊戲AI智能體,因為強化學習智能體會考慮其行為的長期影響,并能在學習期間獨立收集自己的資料,進而避免了對複雜、手工編碼的行為規則的需求。

而處理《GT賽車》等複雜領域,需要同樣複雜和微妙的算法、獎勵和訓練場景。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

AI從多個《GT賽車》遊戲中擷取資訊,通過最大化快速跑圈的獎勵和最小化碰撞的懲罰等方式來學會如何取勝。比如,如果它超過另一輛車就會獲得一定權重的獎勵,但出現抄近路、碰撞、打滑等事故則受到懲罰。

GT Sophy在《GT賽車》的三種汽車和賽道組合上接受了多種場景的訓練。其中一些隻有AI智能體在賽道上,而另一些則增加了7個正常遊戲的NPC對手。每次賽道位置、起始速度、汽車之間的間距以及對手的技能水準都是随機的。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

通過持續學習和積累經驗,GT Sophy掌握了賽車控制、賽車戰術和賽車禮儀的技能。

(1)賽車控制:賽車本質上是試圖駕駛處于控制邊緣或行駛更遠地方的汽車。估計制動點、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機器學習問題。

一種新的算法QR-SAC明确推理了GT Sophy高速行動的各種可能結果。解釋駕駛動作的後果和其中的不确定性,有助于GT Sophy在車體極限上通過彎道,并在與不同類型的對手比賽時考慮複雜的可能性。

我們來看一個展示GT Sophy極限駕駛技能的例子,在沒有接觸的情況下,智能體可駕駛通過一系列緊貼牆壁的彎道行駛。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

(2)賽車戰術:車手需能在高速變化的賽車情況下快速做出決策,到線路超過對手,同時考慮到對手對超車嘗試的反應。雖然AI智能體可以收集自己的資料,但訓練尾流超車(slipstream passing)等特定技能需要對手處于特定位置。

為了解決這個問題,GT Sophy的學習包括使用在每條賽道上可能至關重要的人工比賽情況進行混合場景訓練,以及幫助智能體學習這些技能的專門對手。這些技能培養場景幫助GT Sophy獲得了專業的賽車技術,包括處理擁擠的起跑、彈弓式尾流超車,甚至防禦機動。

▲GT Sophy利用急轉彎成功超車人類賽車手

(3)賽車禮儀:車手需要遵守具體規則,以限定賽車可以滑出賽道的程度,以及在發生碰撞時誰應該背責。與此同時,車手需要積極開車才能獲勝,找到正确的平衡是一大挑戰。

為了幫助GT Sophy學習運動禮儀,Sony AI研究人員找到了将成文和不成本比賽規則編碼為複雜獎勵功能的方法。研究團隊還發現,有必要平衡對手的數量,以確定GT Sophy有競争性的訓練比賽,同時不會對人類競争變得過于激進或膽怯。

例如,GT Sophy在不堵塞駕駛線路的情況下超過了人類車手,給他們留下了足夠的機動空間,展示出公平和體育精神。

這些特性,使得GT Sophy與此前在一些經典遊戲中擊敗人類冠軍的早期AI智能體區分開來。

國際象棋、圍棋等屬于完全資訊類遊戲,AI無需掌握現實世界的實體,隻需專注于遊戲政策。即便是玩星際争霸的AlphaStar和Dota的OpenAI Five,也沒有試圖掌握現實世界的實體學。

而現在,GT賽車就在試圖模拟現實世界,是以其戰術、政策和禮儀都至關重要,更難的是,AI需要在汽車在實體極限加速時具備這些技能。

三、還能應用于機器人、無人機和自動駕駛

就像其他打敗人類冠軍的AI一樣,GT Sophy的價值可不僅局限于玩遊戲。

在GT Sophy的開發過程中,研究人員定期與頂級驅動程式互動,以測試最新版本。

“索菲的賽車路線是人類車手永遠想不到的。”《GT賽車》的創造者、現實生活中的賽車手Kazunori Yamauchi說,這項技術将成為其未來版本遊戲的一部分,并有望幫助新手和專業司機提高他們的技能。“我認為很多關于駕駛技能的教科書都将被重寫。”

GT Sophy也帶給了頂級人類車手新的靈感。FIA Gran Turismo錦标賽2018年冠軍Igor Fraga稱贊說:“GT Sophy向我們展示了我們之前從未想象過的新可能性。”

赢得電子競技賽車賽事前所未有“三冠王”的日本頂級選手Takuma Miyazono,從4歲就開始玩虛拟賽車,但他從未遇到過像GT Sophy這樣的賽車手。“Sophy非常快,圈速比最好的車手的預期要好。”他認為,看到Sophy,有些動作才成可能。

FIA Gran Turismo錦标賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發,她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

▲Emily Jones

“在某些彎道上,我把車開得很大,然後倒車,而AI則把車開得很近,是以我學到了很多關于線路的知識。還知道該優先考慮什麼。以進入第1個彎道為例,我刹車的時間比AI晚,但AI會比我有一個更好的出口,并在下個彎道打敗我。直到我看到AI,我才意識到這一點,并認為「好吧,我應該這麼做。」”Emily Jones說。

更重要的是,這一研究突破将引發一場關于無人駕駛汽車使用的最佳計算方法的辯論。

Sony AI全球負責人北野宏明談道,GT Sophy的目的不僅是超越人類玩家,而是為玩家提供一個具有刺激性的對手,加速并提升玩家的技術和創造力。為GT Sophy開發的AI算法可能也适用于無人機、機器人等其他類型的機器。

“除了為遊戲社群做出貢獻外,我們相信這一突破也為自動賽車、自動駕駛、高速機器人和控制等領域帶來了新的機遇。”北野宏明說。

AI玩賽車遊戲登上Nature封面!擊敗人類冠軍

▲Sony AI CEO北野宏明

豐田研究所人類中心駕駛研究進階經理阿維納什·巴拉昌德拉(Avinash Balachandra)認為:“在賽車中使用機器學習和自動控制是令人興奮的。”該研究所正在測試能夠在極端速度下運作的自動駕駛汽車。他說,豐田正在研究“人類放大技術,利用專家從賽車運動中學習的技術,有朝一日可以改善主動安全系統”。

馬薩諸塞大學阿姆赫斯特分校研究強化學習的教授布魯諾·卡斯特羅·達席爾瓦(Bruno Castro da Silva)評價GT Sophy是“一項令人印象深刻的成就”,是朝着為自動駕駛汽車訓練AI邁出的重要一步。

但他認為,從《GT賽車》到現實世界将是一個挑戰,因為像GT Sophy這樣的強化學習算法很難考慮決策的長期影響,而且也很難保證這些算法的安全性或可靠性。

“如果我們希望這樣的AI系統在現實生活中部署,安全保障是最重要的。”da Silva說,“缺乏安全保障,是基于機器學習的機器人尚未廣泛應用于工廠和倉庫的主要原因之一。”

四、結語:AI與遊戲玩家的雙重勝利

在評價這一研究進展時,索尼集團董事長、總裁兼CEO吉田憲一郎說:“索尼的宗旨是「通過創造力和技術的力量,讓世界充滿情感」,而GT Sophy就是這一理念的完美展現。”

總體來看,賽車遊戲AI不僅展現了AI如何學習在複雜情況下工作政策的技術進展,也展示出AI如何為玩家提供新的遊戲體驗。

據悉,Sony AI和PDI将探索如何将GT Sophy內建到《GT賽車》系列的未來版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念将促進遊戲和汽車的未來。

來源:Sony AI,Nature,Ars Technica,Wired

繼續閱讀