Learning Real-World Robot Policies by Dreaming 論文速讀
文章目錄
- Learning Real-World Robot Policies by Dreaming 論文速讀
-
- 前言:
- title: Learning Real World Robot Policies by Dreaming
- Main Idea
- 和model-based的差別,用作者的原話:
- 資訊流圖
- 不同的實驗設定:
- 效果:
- 聯系方式:
前言:
好久沒有細看論文了,最近好奇一個新的領域,搜了十幾篇文章。
但是如果認真看,時間肯定來不及,是以整一個速讀。
康康能不能兩小時整一篇比較感興趣的文章。
模闆直接借用劉嘉俊大佬的。
title: Learning Real World Robot Policies by Dreaming
Paper: http://arxiv.org/abs/1805.07813
Website: https://piergiaj.github.io/robot-dreaming-policy/
Keywords
data efficiency, real-world, dreaming model(world model)
Main Idea
設計了一個dreaming model,使機器人在其中進行interaction,而不是直接和real-world。
能夠處理沒有見過的(unseen)場景,這個就有點意思了。
任務場景:
任務場景1為導航到目标點
任務場景2為避開目标點。
總共就一兩米的場景,接近0.2米内就算成功,這任務也太…
預訓練過程:
we collect a dataset consisting of 40,000 images (400 random trajectories)
訓練:
except initial random action policy samples in all
our experiments
和model-based的差別,用作者的原話:
We use “dreaming” to refer to far more than just model-based RL. What our “dreaming” model does is learns a state-transition model that we can randomly sample previously unseen trajectories from (i.e. what we call dreaming).
Dreaming Model 由 FCNN, VAE, action-conditioned future regressor(ACFR)構成。
ACFR: 可以模拟機器人執行指令action之後的state變化。這就意味着,Dreaming Model相較于之前的Model-based方法,引入了 imagined trajectories 來代替之前的 real trajectories,這也是作者 use the word ‘dreaming’ rather than ‘model-based’ 的用意。詳見reddit上的debate.
以下是dreaming生成的imagine trajectories的可視化:

It is really awesome, isn’t it?
資訊流圖
那我們接下來看一下如此marvelous的dreaming是如何實作的吧!
利用VAE對state圖像進行表征,而不是簡單的自編碼器,是以有一定的生成能力,能處理沒有見過的場景。但是缺點是生成的圖檔太模糊。
那我們接下來看一下如此marvelous的dreaming是如何實作的吧!
Opinion
其實我一直認為像VAE,GAN這種生成網絡是可以用于RL提升data efficiency的,這篇文章确實在像這個方向做,但是GAN本身在實際使用時訓練時間過長,消耗大量資源,是以對RL來說是利是弊還得看具體使用。
- 利用VAE對state圖像進行表征;
- 建立一個state-transition model,以 s t , a t s_t, a_t st,at 作為輸入,以 s t + 1 s_{t+1} st+1作為輸出,使其成為action-conditioned s t + 1 = f ( s t , a t ) = F ( s t , G ( a t ) ) s_{t+1}=f(s_t, a_t)=F(s_t, G(a_t)) st+1=f(st,at)=F(st,G(at))
-
Learning Real-World Robot Policies by Dreaming 論文速讀Learning Real-World Robot Policies by Dreaming 論文速讀 - 總loss: L = L V A E + γ ∗ L f L = L_{VAE}+ \gamma* L_{f} L=LVAE+γ∗Lf
不同的實驗設定:
- 沒什麼可說的,這個思路還行,但是效果不夠吸引我。
效果:
圖都不想貼了~
聯系方式:
ps: 歡迎做強化的同學加群一起學習:
深度強化學習-DRL:799378128
歡迎關注知乎帳号:未入門的煉丹學徒
CSDN帳号:https://blog.csdn.net/hehedadaq
極簡spinup+HER+PER代碼實作:https://github.com/kaixindelele/DRLib