天天看點

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

作者:钛媒體APP
Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲
文 | 學術頭條,作者 | 庫珀,編審 | 寇建超

人工智能(AI)的很多潛在應用,涉及與人類互動時做出更優化的實時決策,而競技或者博弈類遊戲,便是最佳的展示舞台。

今天,發表在《自然》雜志上的封面文章報告稱,AI 在賽車對戰遊戲 Gran Turismo(GT賽車)中戰勝了世界冠軍級人類玩家。這個 AI 程式名為“Gran Turismo(GT)Sophy”,是一種神經網絡驅動程式,它在遵守賽車規則的同時,展現出了超凡的行駛速度、操控能力和駕駛政策。

完成這項 AI 程式研發的核心團隊來自索尼 AI 事業部(Sony AI),《GT賽車》系列遊戲是日本 Polyphony Digital 公司開發,忠實再現了真實賽車的非線性控制挑戰,封裝了複雜的多智能體互動,該遊戲在索尼 PlayStation 及 PSP 等遊戲主機平台上皆有發行,是一款極具拟真感操縱體驗的熱門賽車遊戲。

假如有此 AI 程式的加持,人類玩家估計再也跑不過加強版的單機程式了吧?

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

圖|遊戲截圖(來源:GT賽車)

研究人員認為,此項成果或讓賽車遊戲變得更有意思,并能提供用來訓練職業賽車手和發現新賽車技巧的高水準比賽。這種方法還有望應用在真實世界的系統中,比如機器人、無人機和自動駕駛汽車等。

賽道裡的速度與激情

駕駛賽車需要極大的技巧。現代一級方程式賽車展示了驚人的工程精度,然而,這項運動的受歡迎程度與其說與汽車的性能PK有關,不如說與頂級車手在将汽車性能發揮到極限時所表現出的技巧和勇氣有關。一個多世紀以來,賽道上的成功一直充滿着速度和激情。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

圖|F1方程式賽車比賽(來源:GNEWS)

賽車比賽的目标很簡單:如果你比競争對手在更短的時間内跑完賽道,你就赢了。然而,實作這一目标需要極其複雜的實體戰,馳騁賽道需要小心使用輪胎和道路之間的摩擦力,而這種摩擦力是有限的。

為了赢得比賽,車手必須選擇讓汽車保持在不斷變化的摩擦極限内的軌迹上。轉彎時刹車太早,你的車就會慢下來,浪費時間。刹車太晚,當你接近轉彎最緊的部分時,你将沒有足夠的轉彎力來保持你想要的路線軌迹。刹車太猛,可能會導緻車體旋轉。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

是以,職業賽車手非常擅長在整個比賽中一圈接一圈地發現并保持賽車的極限。

盡管賽車的操縱極限很複雜,但它們在實體上可以得到很好的描述,是以,它們可以被計算或學習是理所當然的。

近年來,深度強化學習(DRL)已成為 Atari、星際争霸和 Dota 等領域 AI 研究裡程碑的關鍵組成部分。為了讓 AI 對機器人技術和自動化産生影響,研究人員必須證明能夠成功控制複雜的實體系統,此外,AI 技術的許多潛在應用要求在接近人類的情況下互相作用,同時尊重不精确的人類規範,汽車比賽正是充滿這些挑戰的典型領域。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

圖|遊戲比賽資料對比(來源:Nature)

近年來,利用全尺寸、大規模和模拟車輛,自主賽車的研究不斷加速。一種常見的方法是預先計算軌迹,并使用模型預測控制來執行這些軌迹。然而,當在摩擦的絕對極限下行駛時,微小的模組化誤差可能是災難性的。

與其他車手比賽對 AI 模組化精度提出了更高的要求,并引入了複雜的空氣動力學互相作用,進一步促使工程師改進控制方案,以不斷預測和适應賽道的最優軌迹,有朝一日,無人駕駛汽車下賽道與人類車手一決高下,也并非空談。

“AI賽車手”的煉成

在 GT Sophy 的開發過程中,研究人員探索了各種使用機器學習來避免模組化複雜性的方法,包括使用監督學習來模組化車輛動力學,以及使用模仿學習、進化方法或強化學習來學習駕駛政策。

為了取得成功,賽車手必須在四個方面具備高度技能:(1)賽車控制,(2)賽車戰術,(3)賽車禮儀和(4)賽車政策。

為了控制汽車,車手們對他們的車輛動力學和賽道的特性有詳細的了解。在此基礎上,駕駛者建立所需的戰術技能,通過防守對手,執行精确的演習。同時,駕駛員必須遵守高度精煉但不精确的體育道德規則,最後,車手在模拟對手、決定何時以及如何嘗試超車時,會運用戰略思維。

模拟賽車是一個需要在具有高度真實、複雜實體環境中進行實時、連續控制的領域,GT Sophy 在這種環境下的成功首次表明,在一系列汽車和賽道類型中,有可能訓練出比頂尖人類賽車手更好的人工智能代理。

這一結果可以被視為是計算機在國際象棋、圍棋、冒險、撲克牌和星際争霸等競争性任務持續發展的另一個重要步驟。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

圖|GT Sophy 的訓練(來源:Nature)

值得注意的是,GT Sophy 在短短幾個小時内就學會了繞道而行,并超過了資料集中 95% 的人類選手,它又訓練了九天時間,累計駕駛時間超過了 45000 小時,跑圈時間減少了十分之一秒,直到圈速停止改善。

單憑進步獎勵還不足以激勵AI程式赢得比賽。如果人類對手的速度足夠快,AI程式将學會跟随,并在不冒潛在災難性碰撞風險的情況下嘗試積累更多獎勵,實作超車。

為了評估 GT Sophy,研究人員在兩項賽事中讓 GT Sophy 與頂級 GT 車手進行了較量,GT Sophy 在所測試的三條賽道上都取得了超人的計時表現,它能夠執行幾種類型的轉彎,有效地利用漂移,擾亂後面車輛,攔截對手并執行其他緊急操縱。

盡管 GT Sophy 展示了足夠的戰術技能,但仍有許多方面有待改進,尤其是在戰略決策方面。例如,GT Sophy 有時會在同一條跑道上留出足夠的空間,讓對手有機可乘。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

圖|AI 車手超越人類玩家(來源:Nature)

競技遊戲外更值得關注

關于電子競技、博弈類的遊戲,AI 能戰勝人類早已經不是什麼稀奇事,而且可以肯定的是,AI 還會越來越強,即便是人類頂尖選手也隻能甘拜下風,但能赢電子比賽并沒有太多懸念和意義,關鍵還是看這些超越人類的 AI 程式如何切實攻克産業瓶頸,真實造福人類生活。

1996 年 2 月 10 日,超級電腦 Deep Blue 首次挑戰國際象棋世界冠軍 Kasparov 以 2:4 落敗。1997 年 5 月再度挑戰,最終Deep Blue 以 3.5:2.5 擊敗了 Kasparov ,成為首個在标準比賽時限内擊敗國際象棋世界冠軍的電腦系統。

但 Deep Blue 的缺陷是沒有直覺,不具備真正的“智能靈魂”,隻能靠超強的計算能力彌補分析思考方面的缺陷,赢得比賽的 Deep Blue 很快也退役了。

Nature封面:人類又輸給了AI,這次是玩《GT賽車》遊戲

2016 年 3 月,谷歌 AI 的 AlphaGo 在四場比賽中擊敗了圍棋世界冠軍李世石,被認為是 AI 真正意義上的裡程碑,AlphaGo 當時使用了蒙特卡洛樹搜尋與兩個深度神經網絡相結合的方法,在這種設計下,電腦可像人類大腦一樣自發學習進行分析訓練,不斷學習提高棋力。

自此之後,各類 AI 程式新秀層出不窮,2018 年 12 月 10 日,DeepMind 針對即時戰略遊戲星際争霸開發的人工智能 AlphaStar 能完虐全球 99.8% 的人類職業選手。

無疑,現在的 GT Sophy 又是一個 AI 勝利的延續。

來自斯坦福大學機械工程系教授 J.Christian Gerdes 認為,GT Sophy 研究所帶來的影響也許能遠遠超出電子遊戲範疇,随着許多公司緻力于完善運送貨物或乘客的全自動車輛,關于軟體中有多少應該使用神經網絡,以及有多少應該僅基于實體,值得進一步去探索。

總的來說,在感覺和識别周圍環境中的物體時,神經網絡是無可争議的冠軍。然而,軌迹規劃仍然是實體和優化領域,GT Sophy 在遊戲賽道上的成功表明,神經網絡有一天可能會在自動化車輛的軟體中發揮比今天更大的作用。

更具挑戰性的可能是每圈的變化。真實情況下,賽車的輪胎狀況在每圈之間都會發生變化,人類駕駛員必須在整個比賽過程中适應這種變化。GT Sophy 能用更多的資料做同樣的事情嗎?這些資料從何而來?這将使得人工智能有更多進化空間。

參考資料:

https://www.nature.com/articles/s41586-021-04357-7https://www.nature.com/articles/d41586-022-00304-2

繼續閱讀