天天看點

AAAI 2019 四個傑出論文獎論文揭曉

雷鋒網 AI 科技評論按:人工智能頂級學術會議 AAAI 2019 (第 33 屆 AAAI)即将在美國夏威夷開幕,會議時間是 1 月 27 日到 2 月 1 日,其中正會内容從 1 月 29 日開始。近日,AAAI 組委會在官網公布了幾個論文獎獎項的獲獎情況。雷鋒網 AI 科技評論簡介如下。

AAAI 2019 傑出論文獎

How to Combine Tree-Search Methods in Reinforcement Learning

如何把樹搜尋方法結合進強化學習中

論文位址:https://arxiv.org/abs/1809.01843

論文摘要:有限時長的前瞻政策方法在強化學習中有着廣泛的應用,這類方法在實證研究中展現出了優秀的表現。通常,前瞻政策方法在應用的時候都會搭配一些具體的規劃方法,比如蒙特卡洛樹搜尋(AlphaZero 中就是這樣做的)。對于看作是樹搜尋的規劃問題,算法實作中的一種合理做法是隻在葉子節點上備份值,同時在根節點上獲得的值隻會用來更新政策。在這篇論文中,作者們質疑了這種方法的表現。具體來說,這種做法并不具備一般化的收縮性,也無法保證收斂。作者們提出的改進方法思路直接而且簡單:用最優的樹路徑的傳回值備份根節點的子節點的值。這會帶來 γh 的收縮過程,其中 γ 是折扣系數,h 是樹的深度。為了表明這種方法的效果,作者們首次提出了一個名為「多步貪婪持續性」的想法。作者們編寫了兩個以上改進的算法執行個體,并在樹搜尋階段和值估計階段都注入噪聲的狀況下提供了收斂速率結果。

AAAI 2019 傑出論文獎榮譽提名

Solving Imperfect-Information Games via Discounted Regret Minimization

通過折扣後悔最小化解決非完全資訊博弈

論文位址:https://arxiv.org/abs/1809.04040

論文摘要:反事實後悔最小化(CFR)是一類最為火熱的疊代算法,而且在實際應用中也是可以最快逼近解決大規模非完全資訊博弈的方法。這篇論文中作者們提出了一種新的 CFR 變體,它的特點是,1,通過多種不同的方式,給較早的疊代中的後悔值打上折扣(在某些情況下,正值和負值的折扣比例會有所不同);2,疊代得到輸出政策的過程中,通過多種不同的方式給不同的疊代賦予不同的權重;3,使用了一個非标準的後悔最小化優化器;4,使用了「樂觀後悔比對」。在多種設定下,這些改進都可以讓方法的表現得到大幅度提高。具體來說,作者們提出的某一種變體在所有測試了的博弈中都比此前的最佳表現算法 CFR+ 表現更好,包括在一些大規模的真實設定中。而此前,CFR+ 一直是一個令人敬畏的基準模型,沒有任何别的模型表現比它更好。最後作者們也展示了,與 CFR+ 不同,根據作者們提出的改進點設計的新 CFR 變體與現有的許多非完全資訊博弈中的剪枝政策都是相容的,而且其中也有一種和博弈樹中的采樣相容。

AAAI 2019 傑出學生論文獎

Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference

用于程式設計學習的零樣本學習:通過深度學習界面進行提示采樣

論文位址:https://arxiv.org/abs/1809.01357

論文摘要:在現代計算機科學教育中,大規模開放線上課程(MOOCs)在提供線上教育的同時也會記錄下數千小時的學習過程,其中包括了學生如何解決程式設計題目的過程。既然手握這麼多資料,這些平台也就引起了機器學習領域的研究人員們的興趣,他們開發了許多新的算法,嘗試以提供自動化回報的方式幫助未來的學生們更好地學習。不過,提供了最初的幾十萬小時的訓練資料的學生們怎麼辦呢?在大多數教學場景下(比如教室),想要為課後作業設計監督學習系統都會遇到曆史資料不足的問題。在這篇論文中,作者們提出了一種人參與其中的「提示采樣」方法,專門用來處理早期的「無樣本學習」問題。對于在入門難度的程式設計作業中提供自動回報的任務,相比于以往的需要資料喂養的方法,作者們提出的新方法為第一批學生們提供的回報有顯著的品質提高,而且接近了人類級别的可信度。提示采樣需要老師付出的精力最小,可以提供和學生的回答的具體部分相關的回報,而且可以使用指導者的語言指出學生的誤解之處。深度學習推理的使用,讓訓示采樣在未來有更多基于不同的作業的學生資料可用時也能發揮出更好的表現。作者們從全世界最大的程式設計教育平台 Code.org 采集了一個新資料集并在上面展示了方法的表現。

AAAI 2019 傑出學生論文獎榮譽提名

Learning to Teach in Cooperative Multiagent Reinforcement Learning

在多智能體合作強化學習中學習如何教學

論文位址:https://arxiv.org/abs/1805.07830

論文摘要:人類個體的創新行為可以通過溝通教會别的人,人類集體智慧的提升顯然從這種做法中受益匪淺。與人類社會群體類似,分布式學習系統中的智能體也許也可以從溝通中獲益,可以分享知識、教授技能。此前已經有工作研究過如何通過教學的方式幫助智能體學習,但是這些方法做出的假設讓它們無法在一般的多智能體問題中進行教學,又或者先需要它們要解決的問題的領域知識。這種學習教學的問題本身就有很高的複雜度,而且還要測量教學的長期影響,這在标準的多智能體協調問題上又增加了許多難度。與現有研究不同,這篇論文首次為多智能體環境中的智慧智能體學習教學問題提出了一個通用的架構和算法。作者們提出的算法,「學習協調與學習強化」(LeCTR),針對的是合作多智能體強化學習中的點對點(peer2peer)教學。方法中的每個智能體都要學習如何指導、指導什麼内容,然後使用接收到的建議改進自己的學習。重要的是,這些角色并不是固定的;智能體們會學習在不同的時間決定别的智能體是學生還是老師的角色,對應地提供指導或者接受指導,以便提高整個團體範圍内的表現和學習能力。與目前最好的方法之間的比較表明,作者們提出的教學智能體不僅顯著地學習更快,而且也可以在現有方法無法解決的問題中學會協調。

AAAI 2019 經典論文獎

Content-Boosted Collaborative Filtering for Improved Recommendations

内容加速的合作式篩選帶來更好的推薦

這篇論文來自第 18 屆 AAAI,即 AAAI 2002

獲獎理由:這篇論文展示的方法是推薦系統中基于内容的和合作式過濾方法的補充

論文一作 Prem Melville 将在大會中發表演講

論文位址:https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf

完整 AAAI 2019 會議秩序冊參見 https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI19.Program.pdf

更多會議内容報道請繼續關注雷鋒網(公衆号:雷鋒網) AI 科技評論。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

繼續閱讀