天天看點

傳送門!ICML2017(國際機器學習大會)最佳論文(附下載下傳)最佳論文獎最具時間價值獎(Test of Time Award)

本文來自AI新媒體量子位(QbitAI)

傳送門!ICML2017(國際機器學習大會)最佳論文(附下載下傳)最佳論文獎最具時間價值獎(Test of Time Award)

8月6日,第34屆國際機器學習大會(ICML 2017)已在悉尼拉開帷幕。

其中最受關注的論文獎項已公布。

據主辦方消息,ICML2017共評審了1676篇論文,收錄了434篇,錄取率為25.89%。

最佳論文獎由斯坦福大學Pang Wei Koh和Percy Liang的論文Understanding Black-box Predictions via Influence Functions獲得。最具時間價值獎則是2007年巴黎南大學和阿爾伯塔大學共同投遞的論文Combining Online and Offline Knowledge in UCT。

量子位整理傳送如下:

論文:Understanding Black-box Predictions via Influence Functions(通過影響函數了解黑箱預測問題)

作者:Pang Wei Koh、Percy Liang

機關:斯坦福大學

摘要:應該如何解釋黑箱模型預測環境?在這篇論文中,我們用穩健統計學中的一種經典方法探索模型預測問題。通過學習算法和其背後的訓練資料,模型能夠識别給定預測最合理的訓練點數。為了使影響函數應用在機器學習任務上,我們建立了一種簡單且高效的實作方式,它僅需要梯度oracle通路途徑和Hessian矢量積。雖然在非凸模型和不可微分模型中這個理論還不成立,但近似影響函數仍能提供有價值的資訊。在這篇論文中,我們示範了影響函數線上性模型和卷積神經網絡的多種任務的表現,包括了解模型表現、調試模型、檢測資料集錯誤、甚至出創造視覺無法區分的訓練集攻擊類型。

論文下載下傳位址:http://proceedings.mlr.press/v70/koh17a/koh17a.pdf

論文:Lost Relatives of the Gumbel Trick

作者:Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller

機關:劍橋大學、馬克斯普朗克智能系統研究所等

摘要:Gumbel技巧是從離散機率分布中抽樣或估計其歸一化分區函數的方法。該方法取決于以特定方式重複對分布進行随機擾動,每次求解最可能的配置。我們得出了一系列相關的方法,其中Gumbel技巧是其中一種,并且表明新方法在幾個設定中具有優越的性能,以及最小的附加計算成本。另外,對于Gum-bel技術來為離散圖模型(discrete graphical model)有計算優勢,所有配置的Gumbel擾動通常被所謂的低等級擾動(low-rank perturbations)所替代。我們展示了我們新方法的子系列如何适應這種設定,證明了對數分區函數的新的上限和下限,并得出了吉布斯分布(Gibbs distribution)的一系列重要采樣器。最後,我們展示了如何通過更簡單的Gumbel技巧來簡化分析形式,推導出額外的理論結果。

下載下傳位址:http://proceedings.mlr.press/v70/balog17a/balog17a.pdf

論文:Modular Multitask Reinforcement Learning with Policy Sketches

作者:Jacob Andreas、Dan Klein、Sergey Levine

機關:加州大學伯克利分校

摘要:我們描述了一個以policy sketches為指導的多任務深入增強學習的架構。sketches用指定的子任務序列标注任務,提供關于任務之間的進階結構關系的資訊,但不是如何實作它們 —— 具體來說,不提供強化學習之前的學習政策抽象工作所使用的詳細指導(如中間獎勵、子任務完成信号、内在動機)。為了從sketches中學習,我們提出一個将子任務與子產品化子政策相關聯的模型,并通過将每一個子任務和子產品子政策結合起來,并通過在共享子政策之間測試參數,将全部任務特定的政策的獎勵最大化。優化是通過解耦合actor-critic訓練目标來實作的,這個目标可以幫助學習多個不相似的獎勵功能的共同行為。我們評估我們的方法在具有離散和連續控制的三個環境中的有效性,以及僅在完成若幹進階次級目标之後才能獲得的稀少獎勵。實驗表明,使用我們的方法學習sketches,比現有的學習特定任務或共享政策的技術具有更好的表現,同時可以自然歸納出可重新組合的可解釋的原始行為庫,以快速适應新任務。

下載下傳位址:http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf

論文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions

作者:Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh

機關:康奈爾大學、雅虎等

摘要:許多應用中都出現了對稱分布特性,例如支援大小、支援覆寫率、熵值和均勻性等。最近,研究人員應用了不同的估計量和分析工具,來為每個屬性推導漸進的樣本最優近似。我們的研究表明,單一、簡單、插件式的估計量:profile maximum likelihood (PML),是可以與所有對稱屬性競争的樣本,特别是對于上述所有屬性,PML最優。

下載下傳位址:http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf

論文:Combining Online and Offline Knowledge in UCT

作者:Sylvain Gelly、David Silver

機關:巴黎南大學、阿爾伯塔大學

摘要:UCT算法使用基于樣本的搜尋線上學習價值函數。TD(λ) 算法可以為政策分布離線學習一個價值函數。我們在UCT算法中考慮了三種離線和線上價值函數的組合。第一種,在蒙特卡洛模拟中使用離線價值函數作為預設政策。第二種,UCT價值函數與快速線上action values評估相結合。第三,離線價值函數作為UCT搜尋樹的先驗知識。我們通過在9×9規格圍棋盤上對陣GnuGo 3.7.10來評估這些算法。第一種算法的表現,由于使用随機模拟政策的UCT,但是令人意外的比使用手工模拟政策的UCT算法要差。第二種算法全面優于UCT。第三種算法表現優于使用手工先驗知識的UCT算法。我們在MoGo(世界最強9×9圍棋程式)中結合了這三種算法。每一種算法都顯著改善了MoGo的棋力。

下載下傳位址:http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf

論文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM

位址:http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf

論文:A Bound on the Label Complexity of Agnostic Active Learning

下載下傳位址:http://www.machinelearning.org/proceedings/icml2007/papers/375.pdf

本文作者:允中

原文釋出時間: 2017-08-07

繼續閱讀