因擊敗世界頂尖圍棋選手而名聲大噪的谷歌人工智能精品店——deepmind以消滅人類在智力方面的優越感妄想而著稱,發現為其軟體代理注入想象力有助于它們更好地學習。
本周發表的兩篇論文——《imagination-augmented agents for deep reinforcement learning》和《learning model-based planning from scratch》(從頭開始基于模型的規劃)——總部在英國人工智能業務的研究人員描述了通過想象力規劃提升深度強化學習的新奇技術。
強化學習是機器學習的一種形式。它包含了通過與特定環境進行互動而學習的軟體代理程式,通常通過反複嘗試和犯錯。深度學習是一種機器的形式,涉及受到人類大腦啟發的算法——被稱為神經網絡。而這兩種技術可以一起使用。
可以使用包含軟體代理運作規則的模型來完成深層強化學習。例如,為了教會軟體如何玩視訊遊戲,研究人員可能希望提供一個包含遊戲資訊的模型,這樣可以避免在學習過程中代價高昂的嘗試和犯錯。或者研究人員可能會選擇無模型的強化學習,期望軟體代理最終自己選擇遊戲。
每種方法都有自身的缺點,基于模型的方法缺少在模型中未捕獲的資訊,而無需模型的方法需要大量資料集并且缺乏行為靈活性。deepmind的工作嘗試融合這兩種方法的優點。
這些研究人員在他們的第一篇論文中解釋說:“對環境模型的結構和可能存在的缺陷沒有做出任何假設,我們的方法是以端對端的方式學習提取從模型模拟中收集的有用知識——特别不依賴于模拟的回報。”他們表示,“這樣就可以讓代理受益于基于模型的想象,而又不會陷入傳統基于模型方式的陷阱。”
他們正在描述的是能夠在行動之前思考的軟體。
死胡同
deepmind的研究人員提出通過建構,評估和執行計劃來學習的軟體代理。它将試錯學習與模拟結合作為“飛行前”檢查的一種形式,以便評估最有希望的途徑,同時避免明顯的死胡同。
研究人員用sokoban測試了他們的想象力代理,這是一個拼圖視訊遊戲,是1981年在日本建立的,其中包含了在倉庫裡移動盒子以及飛船導航遊戲。
sokoban允許玩家推盒子,但是不可以拉動盒子,這意味着可能會有一些動作會讓遊戲中的難題無法解決。是以,如果是人類玩家,遊戲就會建議他們在開始行動之前先制訂一個計劃。研究人員認為,因為deepmind代理也能夠進行這樣的規劃,是以也非常适合這個遊戲。
想象代理設法解決了所提出的sokoban中85%的關卡,而标準無模型代理則為隻能完成60%。它的表現也超過了一個拷貝模型代理,這是一個不使用有想象規劃增強版的标準代理。
研究人員在一篇部落格中解釋說:“對于這兩個任務來說,想象增強代理在很大程度上勝過無想象的基準:它們以較少的經驗學習,能夠處理環境模組化的缺陷。”他們表示,“因為代理能夠從内部模拟中提取更多的知識,和傳統的搜尋方法——例如蒙特卡洛樹搜尋——相比,它們能夠使用更少的想象,完成更多的任務。”
在行動之前思考讓機器學習工作變得更慢,但研究人員認為:“這在不可逆轉的領域至關重要,在這些環境中某些行動可能會産生災難性的後果,例如sokoban。”
原文釋出時間為:2017年7月23日
本文作者:黃雅琦
本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。