天天看點

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

近年來,随着人工智能研究的逐漸深入,針對多智能體系統的研究逐漸成為強化學習的一個重要研究方向。在這一領域,研究者重點關注的問題是:決策不再由中心,而是自治的分布式多智能體決定。

是以,分布式人工智能(Distributed Artificial Intelligence)研究應運而生。而随着我國分布式人工智能的研究群體日益壯大,在工業界的應用越來越頻繁,國内學術界迫切希望舉辦一個新的會議,成為國内分布式人工智能的高水準交流平台。2019 年 10 月 13 日至 15 日,第一屆國際分布式 AI 大會在北京召開。這是首屆華人帶頭的國際分布式 AI 學術會議。在本屆大會上,參會嘉賓和學者們重點讨論了多智能體強化學習,以及這些研究在工業界的應用。此外,大會還邀請到了 AAAI、IJCAI、ACL、NeuralPS 大會部分接收論文作者,介紹和強化學習結合的工作。

大會情況

此次會議由多位華人學者以及國際知名學者共同發起,其中,南洋理工大學安波(大會共同主席)、清華大學唐平中(程式委員會共同主席)、南京大學高陽(研讨會主席)、MSRA 秦濤(工業論壇主席)、南京大學俞揚(贊助主席)、天津大學郝建業(宣傳主席)都在組織者之列,會議共同主席之一 Michael Wooldridge 是牛津大學計算機系主任、IJCAI 理事會前主席。圖靈獎得主姚期智院士任大會名譽主席。

本屆大會共有多場演講和報告,包括姚期智、Victor Lesser、劉鐵岩的主旨演講,以及 Noam Brown、田淵棟的專題演講等。此外還有多篇論文的作者發表口頭演講。作為首屆由華人發起和主導的分布式 AI 會議,參會人數衆多,讨論非常熱烈。據統計,本次共有 13 篇接收論文(長論文 11 篇、短論文 3 篇)。

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

大會榮譽主席、圖靈獎得主、清華大學教授姚期智院士做主題演講。

本次大會共分為三天,首日是多場 Tutorial 活動,後兩日則是主題演講和論文口頭報告時間。此外,大會在周一晚上宣布了最佳論文和榮譽提名論文。本文将介紹獲獎論文的核心内容。

獲獎情況

本屆 DAI 大會宣布了最佳論文獎與最佳論文榮譽提名獎項。

最佳論文

本屆 DAI 大會最佳論文由 Weixun Wang、Jianye Hao、Yixi Wang、Matthew E. Taylor 幾位作者共同摘得。其中 Weixun Wang、Jianye Hao、Yixi Wang 來自天津大學,Matthew E. Taylor 來自華盛頓州大學。

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐
論文一作 Weixun Wang 對機器之心表示,這篇論文是一個多智能體互動的問題。考慮到真實世界更多的是一個多智能體問題,采用傳統的「感覺」方法是不夠的,需要多智能體研究來更好地模拟真實情況。

  • 标題:Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner』s Dilemmas
  • 作者:Weixun Wang, Jianye Hao, Yixi Wang, Matthew E. Taylor
  • 論文位址: http://www.adai.ai/dai/paper/29.pdf

疊代囚徒困境已經指導了社會困境問題方面的研究多年。然而,這一問題隻分成了兩種原子行為:合作和對抗。在真實世界的囚徒困境中,這些選擇可能會有所延伸,而且不同的政策可能會帶來一連串連鎖反應,進而影響合作的程度。在本文中,研究者提出了一種名為序列囚徒困境(SPD)的問題,以便更好地捕捉前述特征。

在研究中,研究者提出了一個深度多智能體強化學習方法,可以探索在 SPD 問題中互相合作的演變過程。研究者的方法分為兩步:第一步是線下過程,通過不同的合作級别整合政策,然後訓練一個合作等級檢測網絡。第二步是線上過程,一個智能體基于檢測到的對方的合作等級,逐漸調整并選擇自身的政策。研究者認為,他們提出的方法可以在兩個有代表性的二維 SPD 問題中展示:「蘋果-梨」問題和「水果收集」問題。實驗結果說明,研究提出的方法可以讓智能體避免被具有掠奪性的對手剝削,同時和有合作意向的對手達成合作。

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

圖 1:合作程度檢測網絡

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

圖 4:在不同合作級别下,智能體獲得的平均以及總獎勵。合作程度從智能體 1 到智能體 2 分别為從左到右或從下到上逐漸提升。每個 cell 對應在不同政策對下的獎勵。

最佳論文榮譽提名

本屆 DAI 大會最佳論文榮譽提名授予了谷歌研究院(Google Research)的 Song Zuo,他從線性規劃的新穎視角解讀了邁爾森的最優拍賣理論。

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

最優拍賣理論是由邁爾森(Myerson)于 1981 年提出的,該理論力圖解決在給定資訊分布的情況下,如何設計出某種制度來最大限度地激勵經濟活動的參與人,也就是最優合同的設計問題。

他們通過線性規劃和原始對偶分析的角度重新分析了邁爾森的最優拍賣理論。他們将該理論作為優勢政策和貝葉斯實作的線性規劃問題進行處理,進而引導讀者從一個全新的視角來了解最優拍賣設計問題。

在這篇論文中,研究者通過線性規劃和原始對偶分析這兩種完全不同的方法重新發現了邁爾森的最優拍賣理論。具體而言,他們考慮使用貝葉斯定理(貝葉斯激勵相容+貝葉斯理性預期)和優勢政策(優勢政策激勵相容+後理性預期),其中所有買家具有加法指派和拟線性向量函數,并且所有估價的分布都在一個有限的支撐集中。當買家價值是單維和獨立分布時,我們可以直接證明,貝葉斯實作線性規劃的雙目标僅僅是優勢政策實作線性規劃的雙目标。換言之,貝葉斯和優勢政策實作下的最優收益是相同的。根據觀察結果,研究者通過将優勢政策線性規劃解釋為熨平虛拟福利,并直接從中重新發現了邁爾森的最優拍賣理論。此外,研究者給出了 BIC=DSIC 的充分必要條件,即貝葉斯實作與優勢政策實作的最優收益相同(BR_EV=DR_EV)。條件是當且僅當獨立于虛拟價值函數的 DSIC 和後 IR 虛拟福利達到最大值時才能獲得最優 DSIC 收益 DR-EV(一個買家的虛拟價值獨立于其他買家的估價)。

作為首屆國際分布式 AI 大會,DAI 2019 由華人和國際學者主導,彰顯了華人力量在 AI 研究領域逐漸增強。近年來,随着中國的學術實力不斷增強,越來越多的學術頂會移步中國。IJCAI2019 在澳門召開,EMNLP 也在今年花落香港。更多學術會議在中國舉辦,有助于國内外頂尖 AI 人才交流,未來會催生出跨學科多領域的融合研究成果。

10月16日晚,NVIDIA GPU 計算專家團隊進階工程師季光博士将帶來線上主題分享:利用 TensorRT 自由搭建高性能推理模型。點選閱讀原文立即免費報名。

華人主導,首屆國際分布式AI大會開幕,最佳論文獎已出爐

繼續閱讀