天天看點

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

機器之心報道

編輯:杜偉、陳萍

在《GT 賽車》中戰勝數位全球頂級電子競技賽車手,索尼 AI 開發了一個超強大的賽車 AI 智能體。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

從國際象棋到圍棋再到撲克,AI 智能體在許多遊戲中都勝過人類。現在,這些智能體可以在《GT 賽車》(Gran Turismo)重新整理最高分。

《GT 賽車》由 SCEJ 旗下的著名制作人山内一典領銜研發的一款賽車遊戲。始創于 1997 年,此遊戲是由 POLYPHONY DIGITAL 開發的賽車遊戲。無論從遊戲畫面、操作駕駛時的賽道、賽車數量、真實感,系統都做到盡量完善。這款遊戲收錄了超過 50 條賽道,超過 1000 款車型,可謂汽車博物館。

今日索尼宣布,其研究人員已經開發出一款名為「 GT Sophy」的 AI 驅動程式,其能夠在 GT 賽車運動中連續幾圈擊敗人類頂級電子競技賽車手。相關論文登上 Nature 封面。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

這是比賽畫面:

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面
彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

或許有人認為這是一個簡單的挑戰,畢竟,賽車不隻是速度和反應時間的問題。但電子遊戲賽車和 AI 領域的專家都表示,GT Sophy 是一項重大突破,這表現出智能體對戰術和戰略的掌握。

來自斯坦福大學研究自動駕駛的教授 Chris Gerdes 表示,「在賽車比賽中,如此熟練地超越頂級車手,是 AI 的标志性成就。」

GT Sophy 使用一種稱為強化學習的方法進行訓練:本質上是一種試錯形式,其中 AI 智能體被扔到一個沒有指令的環境中,并因達到某些目标而獲得獎勵。在 GT Sophy 的案例中,索尼的研究人員表示,他們必須非常謹慎地設計這種獎勵:例如,微調碰撞懲罰,以塑造一種足夠強悍的駕駛風格,進而赢得勝利,但這并不會導緻 AI 粗暴地将其他賽車趕出道路。

使用強化學習,GT Sophy 隻需幾個小時的訓練就能在賽道上行駛,并且在一兩天的時間内就能超越訓練資料集中 95% 的車手比賽。經過大約 45,000 小時的全部訓練,GT Sophy 能夠在三個賽道上取得超人的表現。

在測試 AI 智能體時,智能體具有許多天生的優勢,例如它們可以完美的進行回放、反應時間也非常快。索尼的研究人員指出,與人類玩家相比,GT Sophy 确實具有一些優勢,例如帶有賽道邊界坐标的精确路線地圖和關于每個輪胎的負載、每個輪胎的側偏角和其他車輛狀态的精确資訊。但是,索尼表示智能體占據了動作頻率和反應時間這兩個特别重要的因素。

GT Sophy 的輸入被限制在 10Hz,而人類的理論最大輸入是 60Hz。索尼表示這導緻人類駕駛員在高速行駛時表現出更加流暢的動作。在反應時間方面,GT Sophy 能夠在 23-30 毫秒内對比賽環境中的事件做出反應,這比職業運動員的 200-250 毫秒的最高反應時間要快得多。作為補償,研究人員添加了人工延遲,以 100 毫秒、200 毫秒和 250 毫秒的反應時間訓練 GT Sophy。但正如他們發現的那樣:所有這三項測試都達到了超越人類水準的單圈時間。

GT Sophy 與三位頂級電子競技車手進行了測試:Emily Jones、Valerio Gallo 和 Igor Fraga。盡管沒有一位車手能夠在計時賽中擊敗 AI,但比賽讓他們發現了新的戰術。

索尼表示目前他們正在努力将 GT Sophy 整合到未來的 Gran Turismo 遊戲中,但還沒有明确的時間點。

GT Sophy 有哪些技術創新

這個具有突破性的超越人類的賽車智能體是 Sony AI 聯合 Polyphony Digital (PDI) 和 Sony Interactive Entertainment (SIE) 共同開發的。研究人員主要在以下幾個方面做出了貢獻:

超現實模拟器

新型強化學習技術

分布式訓練平台

大規模訓練基礎設施

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

如上所述,《GT 賽車》(GT Sport)是由 Polyphony Digital 開發的 PlayStation 4 駕駛模拟器。《GT 賽車》盡可能逼真地再現了真實世界中的賽車環境,包括賽車、賽道甚至空氣阻力和輪胎摩擦等實體現象。Polyphony Digital 提供了對必要 API 的通路,進而在這個終極模拟環境中訓練 GT Sophy。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

強化學習(RL)是一種機器學習,用于訓練 AI 智能體在環境中采取行動,并通過行動導緻的結果進行獎勵或懲罰。下圖展示了智能體如何與環境互動。智能體采取行動,獲得獎勵或懲罰,并根據環境狀态的變化來确定自身的下一步行動。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

索尼 AI 的研究人員和工程師開發了一系列創新性強化學習技術,包括如下:

一種名為 Quantile-Regression Soft Actor-Critic (QR-SAC) 的新型訓練算法;

可被智能體了解的賽車規則編碼;

一套提升賽車技能的訓練方案。

最近,深度強化學習(Deep RL)已成為街機遊戲、國際象棋、将棋和圍棋等複雜政策遊戲以及其他實時多人政策遊戲中所取得的 AI 裡程碑的關鍵組成部分。RL 特别适合開發遊戲 AI 智能體,因為 RL 智能體會考慮其行為的長期影響,并且可以在學習期間獨立地收集自身資料,進而不再需要複雜的手動編碼行為規則。

然而,處理像《GT 賽車》這類複雜的遊戲需要開發同樣複雜和微妙的算法、獎勵和訓練場景。

GT Sophy 通過 RL 掌握了三種技能

通過在 RL 技術方面的關鍵創新,索尼 AI 開發的 GT Sophy 掌握了賽車控制(Race Car Control)、賽車政策(Racing Tactics)和競賽禮儀(Racing Etiquette)的技能。

首先來看賽車控制。

新型算法 QR-SAC 能夠準确地推理出 GT Sophy 高速駕駛行為所産生的各種可能性結果。并且,通過考慮駕駛行為的後果和其中的不确定性,GT Sophy 可以實作極限轉彎。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

GT Sophy 智能體能夠沒有任何接觸地通過緊靠牆壁的賽道。

其次是賽車政策。

雖然 RL 智能體可以收集自己的資料,但訓練滑流(slipstream passing)等特定技能需要賽車對手處于特定位置。為了解決這個問題,GT Sophy 進行了混合場景訓練,使用到了可能在每條賽道上至關重要的手動制作比賽情況,以及幫助智能體學習這些技能的專業陪練對手。這些技能訓練場景幫助 GT Sophy 獲得了專業的賽車技術,包括處理擁擠的起步、防守動作等。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

GT Sophy 智能體利用急轉彎成功地超越了人類駕駛員。

最後是競賽禮儀。

為了幫助 GT Sophy 學習體育禮儀,索尼 AI 研究人員找到了将書面和不成文賽車規則編碼成複雜獎勵函數的方法。他們還發現,有必要賽車對手的數量,以確定 GT Sophy 進行有競争力的練習賽,同時在與人類車手比賽時不會變得過于激進或膽怯。

分布式、異步部署和訓練 (DART) 是一個基于 Web 的定制平台,由 Sony AI 開發,使 Sony AI 的研究人員能夠在 SIE 的雲遊戲平台中的 PlayStation 4 控制台上訓練 GT Sophy。

DART 允許研究人員輕松指定實驗,在雲資源可用時自動運作,并收集可在浏覽器中檢視的資料。此外,它還管理 PlayStation 4 控制台、計算資源和用于跨資料中心訓練的 GPU。該系統使索尼 AI 的研究團隊能夠無縫地同時運作數百個實驗,同時探索将 GT Sophy 提升到新水準。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

DART 平台可以通路 1,000 多個 PlayStation 4 (PS4) 控制台。每個都用于收集資料以訓練 GT Sophy 或評估經過訓練的版本。該平台由必要的計算元件(GPU、CPU)組成,可與大量 PS4 互動并支援長時間的大規模訓練。

彎道極限超車、擊敗人類頂級玩家,索尼AI賽車手登上Nature封面

GT Sophy 雖然取得了重大的裡程碑,但仍有進步空間。索尼 AI 将與 PDI 和 SIE 合作,繼續更新 GT Sophy 的能力,并探索将智能體內建到 Gran Turismo 系列中的方式。并且,除了《GT 賽車》,索尼 AI 也渴望探索新的合作夥伴關系,通過 AI 提升玩家的遊戲體驗。

參考連結:

https://www.gran-turismo.com/us/gran-turismo-sophy/technology/

https://www.theverge.com/2022/2/9/22925420/sony-ai-gran-turismo-driving-gt-sophy-nature-paper

繼續閱讀