天天看點

DeepMind新論文:在複雜環境中,智能體能更聰明地進行想象和思考了

雷鋒網 ai科技評論按:不同于alphago所處的“完美環境”,在複雜和不完美的環境中,智能體能高效地思考,對未來的結果進行想象嗎?deepmind推出新論文,描述了一類基于想象來進行計劃的新方法,在不完美的環境中也同樣具有高效性。

雷鋒網(公衆号:雷鋒網) ai科技評論将其編譯如下:

在行動之前想象可能出現的結果是人類認知中的一個有力工具。例如,當在桌子邊緣放一個玻璃杯,我們會停下來想一想:這樣穩固嗎,杯子會不會掉下來。根據想象的結果,我們會把杯子的位置調一下,防止它掉下來摔碎。這種慎重的推理過程實際上就是想象,它是人類一種獨特的能力,在日常生活中至關重要。

如果想讓算法也能執行同樣複雜的行為,那麼這種算法也必須和人一樣,對未來具有想象和推理能力。除此之外,他們還必須會利用這種能力來制定計劃。已經有算法能做出許多引人矚目的事情——特别是像alphago這樣的程式,它使用内部模型來分析行為是如何産生結果的,以便進行推理和計劃。這些内部模型運作得很好,因為像圍棋這樣的環境是“完美的”——這些算法有明确定義的規則,在幾乎所有情況下都能準确地預測出結果。但現實世界是複雜的,規則并不會定義得那麼清楚,經常會有未知的情況出現。即使是最聰明的智能體,在這樣的複雜環境中進行想象也是一個漫長、耗費巨大的過程。

能夠應付不完美的環境,學會使規劃政策适應目前的情況,這些都是重要的研究課題。

增強想象智能體

這類智能體得益于一個“想象力編碼器”——能為智能體的未來決策提取一切有用資訊,忽視無關資訊的神經網絡。這些智能體的明顯特征如下:

能夠學會說明智能體的内部模拟過程。這使得他們能夠使用模型,粗略地捕捉環境的動态,即使有時候那些動态并不完美。

有效的運用想象力。通過改變想象的軌迹的數量,來适應問題。編碼器也提高了效率,它能通過想象提取獎勵之外的資訊,這些想象的軌迹可能包含有用的線索,即使他們并不一定導緻較高的獎勵。

能學習不同的政策來制定計劃。可以選擇繼續目前想象的軌迹或者從頭開始。或者,他們可以利用不同的想象模型,這些模型具有不同的精度和計算成本。這為他們提供了大量高效的規劃政策,而不是局限于一成不變的、在不完美環境中會限制系統适應性的方法。

測試架構

deepmind在不同的遊戲上測試了這個架構,包括益智遊戲推箱子和宇宙飛船航行遊戲。這兩款遊戲都需要提前計劃和推理,這使得它們成為測試智能體能力的絕佳環境。

在推箱子中,智能體必須把箱子推到目标上。因為箱子隻能被推,許多移動都是不可逆的(例如,推到角落裡的盒子不能被拉出來)。

在宇宙飛船遊戲中,智能體必須通過固定的次數激活推進器,進而穩定飛船。在遊戲中必須與幾個星球的引力相抗衡,這是一個很複雜的非線性連續調節任務。

為了限制這兩個遊戲的試錯行為,每一關都是程式生成的,失敗之後不能再重玩。這鼓勵智能體在實際環境中行動之前,先想象執行不同的政策帶來的結果。

DeepMind新論文:在複雜環境中,智能體能更聰明地進行想象和思考了

在上圖中,遊戲中的元素是以像素形式呈現給智能體的,它并不知道遊戲的規則。在特定的時間點上,deepmind将智能體對接下來5種可能的想象進行了可視化。根據這些資訊,智能體決定采取什麼行動。相應的軌迹在圖中已經标明。

DeepMind新論文:在複雜環境中,智能體能更聰明地進行想象和思考了

圖示為玩飛船遊戲的智能體。紅線表示在遊戲中執行的軌迹操作,藍線和綠線描述了想象的軌迹。

對于這兩種任務,增強想象的智能體都優于作為基準的無想象智能體:他們可以通過更少的經驗來學習,并且能夠處理對環境模組化時的缺陷。智能體能夠從内部模拟中提取更多的知識,是以他們可以用更少的想象步驟解決更多的任務,優于傳統的搜尋方法,比如蒙特卡羅樹搜尋。

當增加一個有助于制定計劃的管理元件時,智能體就會學着用更少的步驟更高效地解決問題。在宇宙飛船任務中,它可以分辨環境中的引力是強還是弱,這意味着需要不同數量的想象步驟。當為智能體提供環境中的多個模型時,每個模型在品質和成本上都有所不同,它學會了做出有意義的權衡。最後,如果每執行一步,想象的計算成本增加,那麼智能體就會在早期想象多個步驟的結果,并且在之後依靠這種想象的結果,而不需要再次進行想象。

能夠應付不完美的環境,并學會使規劃政策适應目前的情況是重要的研究課題。deepmind的兩篇新論文learning model-based planning from scratch、imagination-augmented agents for deep reinforcement learning,以及hamrick等人之前的研究,考慮到了這些問題。基于模型的強化學習和計劃是研究的熱點,為了提供可擴充的方法來豐富基于模型的、能運用想象力對未來進行計劃和推理的智能體,需要進一步分析和思考。

雷鋒網 ai科技評論編譯。

本文作者:思穎

繼續閱讀