天天看點

UCL 教授汪軍:多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

UCL 教授汪軍:多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

2017 年 7 月 7 日,由中國計算機學會(ccf)主辦,雷鋒網(公衆号:雷鋒網)與香港中文大學(深圳)承辦的 ccf - gair 大會,在深圳大中華喜來登酒店開幕。在 ai 學術前沿專場的第三場, 倫敦大學學院 ucl 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告内容請看本篇雷鋒網的現場速記。

汪軍,

倫敦大學學院(ucl)計算機系教授、網際網路科學與大資料分析專業主任。主要研究智能資訊系統,主要包括資料挖掘,計算廣告學,推薦系統,機器學習,強化學習,生成模型等等。他發表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統傑出華人專家。

UCL 教授汪軍:多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

汪軍:潘院士今天早上講了人工智能 2.0。其中的一個方向,是多個智能體之間的協作與競争。我們還可以從社會學角度,把多智能體看作是一個群體;研究整個群體、動态系統的特性是什麼。對于該話題,我希望給大家做一個介紹。

大家都了解

alphaogo,它的一項核心技術就是強化學習。相比模式識别和監督學習,它在缺乏訓練資料集的情況下仍然可以工作。強化學習系統能夠直接和環境互動,得到回報資訊,在此過程中不斷學習,是以更加自然、靈活。強化學習的一項主要特性,是以收益(reward)定義目标方程,生成優化政策。

多智能體的強化學習

今天重點講的,是多智能體的強化學習。它們單獨的和環境進行互動。在一種情況下它們各自優化自己的目标,但這些目标之間有限制;另一種情況下,它們聯合起來優化一個主要的目标方程。根據具體的情況會有不同的變化。

案例 1:網際網路廣告

過去,我們再網際網路廣告領域做了很多工作,比較早得應用了強化學習方法:在環境互動的情況下,根據投放廣告以後使用者的回報,系統不斷地進行學習。

目前我們可以在 10 毫秒之内做好決策,在每天 10 億流量的情況下進行分析,幫助廣告主精準投放。

案例 2:星際争霸

UCL 教授汪軍:多智能體強化學習的兩大挑戰 | CCF-GAIR 2017

我們通過對星際争霸機關的控制,找到多智體的規律。研究它們在遊戲裡怎麼合作、競争與通訊。近幾個月,我們和阿裡巴巴合作開發了一套玩星際争霸的

ai 系統。該項目中,我們最想解決的是 ai

智體之間的通訊問題——當它們想合作起來攻打對方的時候,必須要有效地合作。我們希望在計算的時候,計算量相對較小,同時又達到智體的協同目的;于是采用了一種雙向連通方式,效果非常明顯。

目前,多智體強化學習的研究仍處于非常初步的階段。這裡,有兩個方面的關鍵問題:

目前的研究,主要集中于少量多智體之間的協同。在有上萬個智體的情況下,(應用研究成果的)效果就不是很明顯。而許多現實場景中的多智體數量,可以達到百萬、甚至千萬級。

案例 3:智能打車 app

一個很明顯的例子是uber、滴滴等智能打車應用。

這類例子中,每個使用者手上的終端、每個司機手上的終端,你都可以把它們想象成智能體。它們可以做出決定:到底什麼樣的價錢我可以接受。系統層面甚至可以有一套機制合理配置設定資源。比如,出行高峰計程車比較少,但是需求量又比較大。而在其它的一些時候,可能計程車很多,但是需求量不大。系統怎麼調配,這其實需要一個非常大的人工智能協作系統來分析。

案例 4:共享單車

共享單車的情況更加明顯。你可以想象,如果給每個自行車裝了晶片或者計算機,它就是一個很智能的東西,可以根據目前的情況,優化車輛的地理位置分布。

今天,如果要做一個強化學習的模型,這個模型必須要可以處理百萬級的智體。隻有在這個量級,我們才可以把人工智體組成的群體和生物群落做對比,觀察宏觀層面的活動規律。

應該怎麼去做?我們可以從自然界裡面獲得一些啟發。比如生态學的

self-organisation

(“自組織”)理論:一些個體行為的簡單規則,能造成種群層面的宏觀規律。我們研究的課題之一,是探索多智能體組成的群體,

和自然界中的動物群體,是否有相通之處?其活動模式是否遵循同一套規律?

案例 5: lotka-volterra 模型

這裡,有一個動物界的著名模型名為

lotka-volterra

(lv)模型。該模型描述的是:互相競争的兩個種群,它們種群數量之間的動态關系。我們根據該模型的理論,用深度學習和強化學習做了一個老虎和羊的多智體生态模型。我們發現,如果關掉智體的學習能力(比如老虎),它們無法适應新環境,生态系統很快崩潰。

而給智體學習能力之後,模型出現的現象,與 lv 模型中猞猁抓兔子的動态現象十分相似。模拟出來的多智體生态,和自然世界的生态圈都遵循一種動态的平衡,就好比多個 ai 智體形成了一個動物種群。這讓我們十分驚奇,人工智能體和生物群體可能有許多共同規律。

 這個研究很有意思的一點是,我們發現有這樣的場景:智體之間可以聯合在一起優化某一個目标,或者單獨優化它們自己的目标。當出現這兩種情況的時候,作為一個群體,他們就有了内在的規律。如果把這些規律找到,對于我們去開發一些新的模型、新的計算機人工智能的方法,是非常有幫助的。

案例 6:宜家

傳統強化學習沒有深入探索過多智體環境問題,而往往把它作為一個假設前提:要麼假設這個環境是不變的,要麼假設這個環境有一定的機率在不斷變化。而這個機率是不變的(not

designable),意味着無法設計這個環境,而是更加适應這個環境。但是實際情況下發現,很多場景下,環境本身也需要一個适應的過程。在宜家的熱力圖上,我們可以看出谷歌在商場裡的活動是非常平均的,這是一個非常好的現象。我們可以開發一個強化學習算法,讓環境(商品擺放)根據顧客的變化而變化。鑒于此,我們在

ucl 的團隊首創了對多智體環境的控制,并研究如何學習環境的深層因素。

這是一個建築系教授進行的研究,他做了一個地圖模拟人在店鋪裡面走的情況,根據熱力圖回報到鋪面設計,來優化使用者在這裡面待的時間,或者說最大化使用者可能消費的情況。

案例 7:分揀機器人

單個智體(機器人)要進行優化,以最快的路徑分揀快遞包裹。這個環境未必是最優的,我們根據貨物的統計特性,設計我把發往南京的包裹通道放在北京旁邊還是放在上海旁邊。是以環境也需要很好的考量和設計。

案例 8:迷宮

一個人工智體,需要以最快的效率找到出口。而環境知道其智能水準,根據情況來設計迷宮,使得智體有最困難或者最小的機率可以出去。這是一個競争的關系。

怎麼優化呢?你會發現,該系統在兩個不同的次元進行。在人工智體的情況下,它會說給定一個環境,我想以最快的效率、最優的政策走出來。當你把這個人工智體學到的東西定住以後,就可以在另外一個次元優化環境:現在這個智體是這樣的屬性,能不能據此使得環境更困難?這兩個次元互相競争、互相疊代,就可以達到優化的情況。雷鋒網雷鋒網

<a href="https://www.leiphone.com/news/201707/qsfvea8dovolqcg0.html">第二屆 ccf-gair 開幕!中國 ai、機器人行業産學研跨界整合進入新時期| ccf-gair 2017</a>

繼續閱讀