DeepMind新論文：在複雜環境中，智能體能更聰明地進行想象和思考了

雷鋒網 ai科技評論按：不同于alphago所處的“完美環境”，在複雜和不完美的環境中，智能體能高效地思考，對未來的結果進行想象嗎？deepmind推出新論文，描述了一類基于想象來進行計劃的新方法，在不完美的環境中也同樣具有高效性。

雷鋒網(公衆号：雷鋒網) ai科技評論将其編譯如下：

在行動之前想象可能出現的結果是人類認知中的一個有力工具。例如，當在桌子邊緣放一個玻璃杯，我們會停下來想一想：這樣穩固嗎，杯子會不會掉下來。根據想象的結果，我們會把杯子的位置調一下，防止它掉下來摔碎。這種慎重的推理過程實際上就是想象，它是人類一種獨特的能力，在日常生活中至關重要。

如果想讓算法也能執行同樣複雜的行為，那麼這種算法也必須和人一樣，對未來具有想象和推理能力。除此之外，他們還必須會利用這種能力來制定計劃。已經有算法能做出許多引人矚目的事情——特别是像alphago這樣的程式，它使用内部模型來分析行為是如何産生結果的，以便進行推理和計劃。這些内部模型運作得很好，因為像圍棋這樣的環境是“完美的”——這些算法有明确定義的規則，在幾乎所有情況下都能準确地預測出結果。但現實世界是複雜的，規則并不會定義得那麼清楚，經常會有未知的情況出現。即使是最聰明的智能體，在這樣的複雜環境中進行想象也是一個漫長、耗費巨大的過程。

能夠應付不完美的環境，學會使規劃政策适應目前的情況，這些都是重要的研究課題。

增強想象智能體

這類智能體得益于一個“想象力編碼器”——能為智能體的未來決策提取一切有用資訊，忽視無關資訊的神經網絡。這些智能體的明顯特征如下：

能夠學會說明智能體的内部模拟過程。這使得他們能夠使用模型，粗略地捕捉環境的動态，即使有時候那些動态并不完美。

有效的運用想象力。通過改變想象的軌迹的數量，來适應問題。編碼器也提高了效率，它能通過想象提取獎勵之外的資訊，這些想象的軌迹可能包含有用的線索，即使他們并不一定導緻較高的獎勵。

能學習不同的政策來制定計劃。可以選擇繼續目前想象的軌迹或者從頭開始。或者，他們可以利用不同的想象模型，這些模型具有不同的精度和計算成本。這為他們提供了大量高效的規劃政策，而不是局限于一成不變的、在不完美環境中會限制系統适應性的方法。

測試架構

deepmind在不同的遊戲上測試了這個架構，包括益智遊戲推箱子和宇宙飛船航行遊戲。這兩款遊戲都需要提前計劃和推理，這使得它們成為測試智能體能力的絕佳環境。

在推箱子中，智能體必須把箱子推到目标上。因為箱子隻能被推，許多移動都是不可逆的(例如，推到角落裡的盒子不能被拉出來)。

在宇宙飛船遊戲中，智能體必須通過固定的次數激活推進器，進而穩定飛船。在遊戲中必須與幾個星球的引力相抗衡，這是一個很複雜的非線性連續調節任務。

為了限制這兩個遊戲的試錯行為，每一關都是程式生成的，失敗之後不能再重玩。這鼓勵智能體在實際環境中行動之前，先想象執行不同的政策帶來的結果。

在上圖中，遊戲中的元素是以像素形式呈現給智能體的，它并不知道遊戲的規則。在特定的時間點上，deepmind将智能體對接下來5種可能的想象進行了可視化。根據這些資訊，智能體決定采取什麼行動。相應的軌迹在圖中已經标明。

圖示為玩飛船遊戲的智能體。紅線表示在遊戲中執行的軌迹操作，藍線和綠線描述了想象的軌迹。

對于這兩種任務，增強想象的智能體都優于作為基準的無想象智能體：他們可以通過更少的經驗來學習，并且能夠處理對環境模組化時的缺陷。智能體能夠從内部模拟中提取更多的知識，是以他們可以用更少的想象步驟解決更多的任務，優于傳統的搜尋方法，比如蒙特卡羅樹搜尋。

當增加一個有助于制定計劃的管理元件時，智能體就會學着用更少的步驟更高效地解決問題。在宇宙飛船任務中，它可以分辨環境中的引力是強還是弱，這意味着需要不同數量的想象步驟。當為智能體提供環境中的多個模型時，每個模型在品質和成本上都有所不同，它學會了做出有意義的權衡。最後，如果每執行一步，想象的計算成本增加，那麼智能體就會在早期想象多個步驟的結果，并且在之後依靠這種想象的結果，而不需要再次進行想象。

能夠應付不完美的環境，并學會使規劃政策适應目前的情況是重要的研究課題。deepmind的兩篇新論文learning model-based planning from scratch、imagination-augmented agents for deep reinforcement learning，以及hamrick等人之前的研究，考慮到了這些問題。基于模型的強化學習和計劃是研究的熱點，為了提供可擴充的方法來豐富基于模型的、能運用想象力對未來進行計劃和推理的智能體，需要進一步分析和思考。

雷鋒網 ai科技評論編譯。

本文作者：思穎

DeepMind新論文：在複雜環境中，智能體能更聰明地進行想象和思考了

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希