UCL 教授汪軍：多智能體強化學習的兩大挑戰

2017 年 7 月 7 日，由中國計算機學會（ccf）主辦，雷鋒網(公衆号：雷鋒網)與香港中文大學（深圳）承辦的 ccf - gair 大會，在深圳大中華喜來登酒店開幕。在 ai 學術前沿專場的第三場，倫敦大學學院 ucl 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告内容請看本篇雷鋒網的現場速記。

汪軍，

倫敦大學學院（ucl）計算機系教授、網際網路科學與大資料分析專業主任。主要研究智能資訊系統，主要包括資料挖掘，計算廣告學，推薦系統，機器學習，強化學習，生成模型等等。他發表了100多篇學術論文，多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統傑出華人專家。

汪軍：潘院士今天早上講了人工智能 2.0。其中的一個方向，是多個智能體之間的協作與競争。我們還可以從社會學角度，把多智能體看作是一個群體；研究整個群體、動态系統的特性是什麼。對于該話題，我希望給大家做一個介紹。

大家都了解

alphaogo，它的一項核心技術就是強化學習。相比模式識别和監督學習，它在缺乏訓練資料集的情況下仍然可以工作。強化學習系統能夠直接和環境互動，得到回報資訊，在此過程中不斷學習，是以更加自然、靈活。強化學習的一項主要特性，是以收益（reward）定義目标方程，生成優化政策。

多智能體的強化學習

今天重點講的，是多智能體的強化學習。它們單獨的和環境進行互動。在一種情況下它們各自優化自己的目标，但這些目标之間有限制；另一種情況下，它們聯合起來優化一個主要的目标方程。根據具體的情況會有不同的變化。

案例 1：網際網路廣告

過去，我們再網際網路廣告領域做了很多工作，比較早得應用了強化學習方法：在環境互動的情況下，根據投放廣告以後使用者的回報，系統不斷地進行學習。

目前我們可以在 10 毫秒之内做好決策，在每天 10 億流量的情況下進行分析，幫助廣告主精準投放。

案例 2：星際争霸

我們通過對星際争霸機關的控制，找到多智體的規律。研究它們在遊戲裡怎麼合作、競争與通訊。近幾個月，我們和阿裡巴巴合作開發了一套玩星際争霸的

ai 系統。該項目中，我們最想解決的是 ai

智體之間的通訊問題——當它們想合作起來攻打對方的時候，必須要有效地合作。我們希望在計算的時候，計算量相對較小，同時又達到智體的協同目的；于是采用了一種雙向連通方式，效果非常明顯。

目前，多智體強化學習的研究仍處于非常初步的階段。這裡，有兩個方面的關鍵問題：

目前的研究，主要集中于少量多智體之間的協同。在有上萬個智體的情況下，（應用研究成果的）效果就不是很明顯。而許多現實場景中的多智體數量，可以達到百萬、甚至千萬級。

案例 3：智能打車 app

一個很明顯的例子是uber、滴滴等智能打車應用。

這類例子中，每個使用者手上的終端、每個司機手上的終端，你都可以把它們想象成智能體。它們可以做出決定：到底什麼樣的價錢我可以接受。系統層面甚至可以有一套機制合理配置設定資源。比如，出行高峰計程車比較少，但是需求量又比較大。而在其它的一些時候，可能計程車很多，但是需求量不大。系統怎麼調配，這其實需要一個非常大的人工智能協作系統來分析。

案例 4：共享單車

共享單車的情況更加明顯。你可以想象，如果給每個自行車裝了晶片或者計算機，它就是一個很智能的東西，可以根據目前的情況，優化車輛的地理位置分布。

今天，如果要做一個強化學習的模型，這個模型必須要可以處理百萬級的智體。隻有在這個量級，我們才可以把人工智體組成的群體和生物群落做對比，觀察宏觀層面的活動規律。

應該怎麼去做？我們可以從自然界裡面獲得一些啟發。比如生态學的

self-organisation

（“自組織”）理論：一些個體行為的簡單規則，能造成種群層面的宏觀規律。我們研究的課題之一，是探索多智能體組成的群體，

和自然界中的動物群體，是否有相通之處？其活動模式是否遵循同一套規律？

案例 5： lotka-volterra 模型

這裡，有一個動物界的著名模型名為

lotka-volterra

（lv）模型。該模型描述的是：互相競争的兩個種群，它們種群數量之間的動态關系。我們根據該模型的理論，用深度學習和強化學習做了一個老虎和羊的多智體生态模型。我們發現，如果關掉智體的學習能力（比如老虎），它們無法适應新環境，生态系統很快崩潰。

而給智體學習能力之後，模型出現的現象，與 lv 模型中猞猁抓兔子的動态現象十分相似。模拟出來的多智體生态，和自然世界的生态圈都遵循一種動态的平衡，就好比多個 ai 智體形成了一個動物種群。這讓我們十分驚奇，人工智能體和生物群體可能有許多共同規律。

這個研究很有意思的一點是，我們發現有這樣的場景：智體之間可以聯合在一起優化某一個目标，或者單獨優化它們自己的目标。當出現這兩種情況的時候，作為一個群體，他們就有了内在的規律。如果把這些規律找到，對于我們去開發一些新的模型、新的計算機人工智能的方法，是非常有幫助的。

案例 6：宜家

傳統強化學習沒有深入探索過多智體環境問題，而往往把它作為一個假設前提：要麼假設這個環境是不變的，要麼假設這個環境有一定的機率在不斷變化。而這個機率是不變的（not

designable），意味着無法設計這個環境，而是更加适應這個環境。但是實際情況下發現，很多場景下，環境本身也需要一個适應的過程。在宜家的熱力圖上，我們可以看出谷歌在商場裡的活動是非常平均的，這是一個非常好的現象。我們可以開發一個強化學習算法，讓環境（商品擺放）根據顧客的變化而變化。鑒于此，我們在

ucl 的團隊首創了對多智體環境的控制，并研究如何學習環境的深層因素。

這是一個建築系教授進行的研究，他做了一個地圖模拟人在店鋪裡面走的情況，根據熱力圖回報到鋪面設計，來優化使用者在這裡面待的時間，或者說最大化使用者可能消費的情況。

案例 7：分揀機器人

單個智體（機器人）要進行優化，以最快的路徑分揀快遞包裹。這個環境未必是最優的，我們根據貨物的統計特性，設計我把發往南京的包裹通道放在北京旁邊還是放在上海旁邊。是以環境也需要很好的考量和設計。

案例 8：迷宮

一個人工智體，需要以最快的效率找到出口。而環境知道其智能水準，根據情況來設計迷宮，使得智體有最困難或者最小的機率可以出去。這是一個競争的關系。

怎麼優化呢？你會發現，該系統在兩個不同的次元進行。在人工智體的情況下，它會說給定一個環境，我想以最快的效率、最優的政策走出來。當你把這個人工智體學到的東西定住以後，就可以在另外一個次元優化環境：現在這個智體是這樣的屬性，能不能據此使得環境更困難？這兩個次元互相競争、互相疊代，就可以達到優化的情況。雷鋒網雷鋒網

<a href="https://www.leiphone.com/news/201707/qsfvea8dovolqcg0.html">第二屆 ccf-gair 開幕！中國 ai、機器人行業産學研跨界整合進入新時期｜ ccf-gair 2017</a>

UCL 教授汪軍：多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普