清華等世界12所頂尖高校學霸組團“打王者”，竟是為了搞科研？

新智元報道

編輯：好困桃子

【新智元導讀】見過學霸打王者的樣子嗎？這不，清華、中科大、耶魯等世界12所頂尖高校學霸集結，一來打王者，二來搞科研。

之前湊在一起「打王者」的學霸又來了！

成都大運會開幕在即，「世界大學生數智競技邀請賽」正式啟動。

國際級規模的大賽共邀請了12支隊伍（包含中國大陸地區4所高校、中國港澳台地區及海外8所高校）參加。

每支隊伍都需要訓練三位英雄，并在之後讓自己的AI進行「3V3」的對戰，而獲得冠軍的團隊可獲得高達20萬的獎金。

在此前的1V1中，各大高校的AI各種「騷操作」不斷。

比如，絲血完成反殺之後，又閃現進塔的藍方貂蟬。

在這背後默默提供支援的，正是以「強化學習」為基礎，《王者榮耀》和騰訊AI Lab共同研發的AI開放研究平台 —— 開悟。

不過，為什麼是強化學習？

強化學習和遊戲有什麼關系？

強化學習（Reinforcement Learning）是除了監督學習和非監督學習之外的第三種基本的機器學習方法。一定程度上，一些複雜的強化學習算法在具備解決複雜問題的通用智能，可以在圍棋和電子遊戲中達到人類水準，算是現階段人工智能領域研究中的一門「必修課」。

舉個例子，不知道大家還記不記得曾經風靡一時的Flappy Bird嗎，這其實就是一個典型的強化學習場景：

1. 智能體——小鳥

2. 與智能體進行互動的「環境」——參差不齊的水管

3. 智能體可能做出的「動作」——向上飛一下或者什麼都不做

4. 智能體采取的行動所遵循的「政策」——為躲避水管而采取行動的機率

5. 智能體在采取行動時得到的「獎勵」——飛得越遠得分就越高

環境會給智能體一個觀測值，智能體接收到環境給的觀測值之後會做出一個動作, 這個動作給予一個獎勵，以及給出一個新的觀測值。智能體根據環境給予的獎勵值去更新自己的政策。

最終，智能體能通過強化學習找到一種方法，使自己從系統的每個狀态中提取的平均價值最大化。

雖然早在上世紀50年代，強化學習的相關理論就已經開始成形。但真正走入到大衆的視野之中，還是要靠着「遊戲」。

2016年1月，DeepMind的圍棋AI——AlphaGo登上《Nature》封面：Mastering the game of Go with deep neural networks and tree search（通過深度神經網絡和搜尋樹，學會圍棋遊戲）。

通過利用強化學習的Value Networks（價值網絡）和 Policy Networks（政策網絡），AlphaGo可以實作棋盤位置的評估，以及步法的選擇。

兩個月後，AlphaGo在和李世石的對戰中實作驚天逆轉，取得勝利。

看到AlphaGo的成功，OpenAI直呼厲害！

于是在2016年11月，OpenAI Five正式立項。

雖然相比于更加正經的圍棋來說，玩《Dota 2》的OpenAI Five感覺完全是在「不務正業」。但實際上，後者的難度其實要高得多：

OpenAI Five需要從8000到80000個動作中做出選擇，其中每一步還需觀察約16000個值。相比之下，國際象棋中平均的可行動作是35個，圍棋是250個。

經過近3年的訓練，OpenAI Five在2019年以2:0擊敗了世界冠軍團隊。

同年，DeepMind也祭出了自己潛心打造的AlphaStar，在《星際争霸2》中以5比0的比分，擊敗了頂尖的職業級玩家。

當然，除了利用已有的遊戲場景訓練強化學習智能體以外，也可以從0打造「訓練基地」。

2021年，在斯坦福教授李飛飛的帶領下，研究小組建立了一個計算機模拟的「遊樂場」——DERL（深度進化強化學習）。

在這篇刊登在《自然通訊》上的論文中，團隊設定了一個虛拟空間，并将簡單的模拟生物放入其中。當然，這些生物隻是一些通過「随機方式」進行移動的「幾何圖形」（Unimal）。

這些Unimal生長在不同的星球中，星球中充滿了「起伏的山丘」和「低矮的障礙物」，他們在更加激烈的環境中展開競争。

Unimal必須通過這些多變的地形，并将一個塊狀物移動到目标位置，而隻有勝者才能繼續産生後代。

李飛飛的這項研究也位學界帶來了一種新的思路：當我們不知道該如何設計執行特殊任務的機器人時，不妨在強化學習的環境中讓它們自己「進化」出合适的形态。

說到這裡其實已經不難看出，不管是頂級的公司，還是大學的教授都在利用遊戲+強化學習的形式來探索人工智能新的邊界。

在如此重要的領域裡，怎麼能少了中國團隊的身影。

于是乎，王者榮耀AI正式釋出。

與《Dota2》和《星際争霸2》類似，在《王者榮耀》中玩家的動作狀态空間高達10的20000次方，遠遠大于圍棋及其他遊戲，甚至超過整個宇宙的原子總數（10的80次方）。

王者榮耀AI産品可以分為兩個部分：「打遊戲」的王者絕悟以及「造絕悟」的開悟平台。

王者絕悟，簡單來說就是《王者榮耀》版的OpenAI Five或AlphaStar，它是《王者榮耀》與騰訊AI Lab共同探索人工智能在遊戲場景應用而推出的「政策協作型AI」。

其中，「政策」指的是AI能夠通過擷取到的資訊，分析局勢優化政策，做出更有利于獲勝的行為。「協作」則指操作遊戲内多個智能體（即多個不同的英雄）互相配合，協同推進博弈。

在2018年對戰頂尖水準的非職業戰隊時，王者絕悟就表現出即時政策團隊協作能力。

在對方團滅後，兵線還尚未到達，下路高地塔還有過半血量，王者絕悟果斷選擇四人輪流抗塔，無兵線強拆。

不過，在訓練這些AI之前，首先得有一個可供訓練的平台。

對于DeepMind和OpenAI來說，隻需稍稍發揮一下自己的影響力就能在現成的遊戲平台上開啟「深度合作」模式。

然而，對于普通的研究者來說，想要在這些遊戲上做研究就隻能調用開放的接口了，體驗上來講肯定要差許多。

不過，以《王者榮耀》為模拟環境的開悟平台就不一樣了，雖然也是基于遊戲，但卻是開放的。

再結合上算法、資料、算力的優勢，開悟平台可以為學術研究人員提供一個全棧打通的閉環科研驗證環境。

除了可以提供「AI+遊戲」的研究場景，以及大規模彈性算力來支撐AI的研究外，還有統一的強化架構來加速研發。

不僅如此，開悟平台還會提供通用的訓練和推理服務，進一步加速AI的訓練。

比如開篇提到的去年《王者榮耀》開悟AI賽事的1V1比拼中，清北、中科院、浙大等20餘所高校，借助開悟平台提供的算法、算力、資料、場景等資源，訓練出了自己的AI模型。

也許在觀衆看來，雙方的比拼是一場操作水準的競技。但是實際上，這是強化學習技術層面上的角逐 —— AI是如何應用大政策，比如何時進攻、何時撤退、在哪埋伏；以及微觀資料判斷 —— 比如血量的計算、出裝、技能CD計算等等。

如果沒有開悟平台的話，也許這些表面是電競比拼，實際是科技水準對決的精彩比賽也就不複存在了。

但，可能又會有新的疑問出現了。

為何要在遊戲中研究人工智能？

其實答案很簡單。

最直接的原因就是AI可以建構建更動态有趣的遊戲環境和更靈活多變的遊戲角色，提升遊戲制作效率和玩家的遊戲體驗。

當然，更重要的意義是将人工智能技術應用于諸如醫療、制造、無人駕駛、城市管理等現實生活中的領域。

而遊戲則為AI技術研發提供了具有明顯優勢的虛拟實驗環境：

提供易于量化的訓練和評估名額

遊戲中的等級、血量、經濟等等，都有助于為AI設定任務目标，同時還能為檢驗AI能力提供統一的驗證評估标準。

難度接近甚至超過很多現實任務

比如《王者榮耀》需要分析存在戰争迷霧的遊戲環境，還需要預測敵方的行為，更需要友方的互相協作。在這樣的環境中成功研發的AI技術在學習解決複雜的現實任務時會更加得心應手。

更快的速度、更低的成本

不同于現實任務，遊戲環境的一切都發生在計算機系統内部，是以在這個環境中進行開發的成本要低得多，而且也能以更快的速度大規模并行式地進行訓練。

更多場景、更加安全

遊戲可以AI模型提供各種各樣，甚至是十分危險的場景模拟，比如為自動駕駛AI建構橫穿馬路的行人，或者各種極端的天氣等等。

看起來不太直覺？

不如，我們在現實世界中嘗試一下用強化學習訓練智能體開車吧。

由于模型的初始參數時随機的，是以智能體最開始經常一腳油就帶着車沖向了路邊的籬笆上，研究人員不得不趕緊把方向打回來。

基于人工的幹預，智能體便得到了自己動作的「獎勵」，知道這樣操作是不對的。

還好整個過程有驚無險，而智能體的操作也逐漸娴熟了起來。

在經過11次訓練之後，終于學會了沿着道路行駛。

當然了，這隻是研究人員做的一個實驗，真正可用的AI可不能這麼訓練。

不過，如此一來也可以看出，直接在現實中訓練AI不僅十分耗時，而且場景不能太複雜，畢竟萬一反應不及時，這「成本」就太高了……

雖然，強化學習在理論上具有諸多優勢，但實際的落地卻并沒有像深度學習那樣轟轟烈烈。即便如此，也已經在不少領域取得了進展。

比如在工業方面，南京大學的俞揚教授帶領團隊利用強化學習實作了汽車的檢驗。

汽車上市之前需要調參數，這其中涉及到很多仿真，通常需要幾十年的經驗積累。

而俞揚團隊花了大概兩個月的時間，整理清楚了資料和流程，以及發動機該怎麼控制。雖然對行業一無所知，但有了這個資料以後，強化學習自己把發動機模型、整車模型全部建立了出來。

經過兩次測試，每一次所有排放都在降低，而且這個降低的值是完全無法通過傳統的人工調整達到的。

除了這些看得見摸得着的原因之外，強化學習還承載起了研究人員的一個美好的「夢想」：通用人工智能（AGI）的誕生。

AGI會在遊戲裡誕生嗎？

AGI的最終目标是終結者中的「天網」嗎？絕對不是！

正如AI發展的終點是為了人類更加美好的生活，AGI同樣如此。當機器能夠擁有和人類一樣智能的那天，萬事都變得簡單了。

然而，對于應該如何實作這一目标，雖然各路專家們還無法完全達成一緻，但肯定不是監督學習。

于是剩下的兩個分支自然也就形成了：以Meta（LeCun）為首的自監督學習派；以DeepMind和OpenAI為首的強化學習派。

2021年6月，DeepMind首席研究科學家、倫敦大學學院教授David Silver在題為「Reward is enough」的論文中指出，人工智能及其相關能力不是通過制定和解決複雜問題而産生的，而是通過堅持一個簡單而強大的原則：獎勵最大化。

簡而言之，Silver等人認為，智能的定義是使獎勵最大化的能力，同時獎勵的最大化也可以用來來解釋智力以及通用人工智能的出現。

但是在我們到達AGI之前，沒人知道答案是什麼。

是以，在這個時候，做再多的嘗試也不為過。

而開悟平台的出現，也讓感興趣的研究人員們可以更容易地接觸到強化學習。

其中的開悟平台以「AI+遊戲」為切入，讓越來越多的人可以參與到探讨和研究之中，并進一步将在該遊戲測試環境中探索得到的新技術和新方法，應用于日常生活中的現實問題。

目前，以開悟為平台基礎，兩屆「騰訊開悟多智能體強化學習高校邀請賽」已經成功落地，國内20+名校積極響應，成為國内高校頂級AI競賽。

通往AGI沒有唯一路徑，随着入局者的增加，AGI這個領域的最終命題也許可以找到更多通道。

而借着大運會「智慧大運」東風，即将舉辦的「世界大學生數智競技邀請賽」正是提供了這樣一個更具影響力和更具國際化的舞台，進而吸引到來自各地的AI人才加入。

畢竟，AI行業裡流傳着這麼一句話：「下一個AI的裡程碑，很有可能會在複雜遊戲裡誕生」。

當更多人參與到開悟平台所搭建的王者榮耀AI賽事中的時候，我們與那個電影中構想的未來就又近了一步。

以開悟平台為載體，王者榮耀AI賽事此前已經舉辦了2屆高校賽。此次的大運會上，大運會執委會和《王者榮耀》還宣布了「開悟AI多智能體博弈」和「王者榮耀世界高校電競」兩條賽道。

看得出來，做AI，《王者榮耀》是認真的。

此外，邀請賽進入大運會還能夠促進産學研用一體化，讓中國算法平台走向世界，促進人才與技術交流。

或許，這次的比賽還能為未來通用人工智能技術發展埋下一顆「小小的」種子。

清華等世界12所頂尖高校學霸組團“打王者”，竟是為了搞科研？

繼續閱讀

美國總統科學技術顧問委員會釋出：《賦能研究：利用人工智能應對全球挑戰》

新研究發現部分人工智能系統已擅長“說謊”……一起來聽健康早聞！2024年5月14日

人工智能也能提供“情緒價值”了，OpenAI釋出全新大模型GPT-4o

編織未見：人工智能與視覺叙事｜MC2 AI影像先導活動

馬斯克談中美人工智能發展：兩者之間的差距正在迅速縮小

AMD全新AI晶片：颠覆Nvidia壟斷，引領人工智能硬體新浪潮

延遲到65歲才能退休，萬一35歲就被人工智能取代了，怎麼辦.

黃奇帆：人工智能時代也有進入千家萬戶的“四大件”“五大件”

【論壇】以“人工智能+”行動着力推動新質生産力發展||黃勇

北大光華學者沙龍解析人工智能的前沿發展與挑戰

OpenAI、谷歌“掰手腕” 大模型給人工智能裝上“眼睛耳朵嘴巴”

NetApp和Lenovo提供針對生成式人工智能進行優化的融合基礎架構解決方案

英偉達、微軟等大廠布局、投資不斷，東南亞成為人工智能新熱土

為什麼人工智能可以給數學帶來革命性變化

人類如何掙脫被人工智能替代的命運？

【意·調查】越來越多意大利學生使用人工智能做作業