天天看點

強化學習新路徑:基于自監督預測的好奇心驅動探索(Paper+Code)摘要示範視訊核心創新點相關連結

本文來自AI新媒體量子位(QbitAI)

強化學習新路徑:基于自監督預測的好奇心驅動探索(Paper+Code)摘要示範視訊核心創新點相關連結

最近,來自加州大學伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等人寫了一篇題為“基于自監督預測的好奇心驅動探索”的論文,這篇文章提出了一種内在好奇心單元(Intrinsic Curiosity Module),來幫助操作者探索新環境。

論文被收錄于8月11号在悉尼舉辦的ICML 2017上,以下是論文的主要内容:

在許多真實的場景中,外部環境對操作者的獎勵非常少或幾乎不存在。在這種情況下,好奇心可以作為一種内在的獎勵信号,讓操作者去探索未知的新環境,學習一些在以後生活中可能有用的技能。

在這篇文章中,我們基于自監督方法建立了反向動力學模型,訓練得到了一個視覺特征的高維空間。在此空間中,我們将操作者預測自身行為可能導緻後果的能力,即預測值和真實值之間的誤差稱為好奇心(curiosity)。

對于圖像序列這樣的高維連續狀态空間,我們的公式非常适用,能繞過直接預測像素的難題,而且選擇性地忽略部分不能影響操作者的環境因素。

我們在兩個遊戲環境中評估所提出的方法:毀滅戰士(VizDoom)和超級馬裡奧兄弟(Super Mario Bros)。

有如下三個大概的研究背景:

1.極少的外部獎勵,與外部環境的互相作用遠遠少于期望值;

2.不輸入外部獎勵,好奇心促使操作者的探索更有效;

3.推廣到未接觸過的場景(例如同一遊戲的新關卡),從早期經曆獲得知識的操作者比從頭開始探索新地點的操作者學習要快得多。

強化學習新路徑:基于自監督預測的好奇心驅動探索(Paper+Code)摘要示範視訊核心創新點相關連結

内部好奇心單元:我們提出了内在好奇心單元,來幫助操作者探索。在外部獎勵很少或完全不存在的情況下,好奇心能幫助操作者了解新環境。

即使沒有任何來自外部環境的獎勵下,我們提出的内在好奇心單元也能結合操作者的政策,進行聯合學習。模型示意圖如下圖所示。

強化學習新路徑:基于自監督預測的好奇心驅動探索(Paper+Code)摘要示範視訊核心創新點相關連結

Paper:

<a>https://pathak22.github.io/noreward-rl/resources/icml17.pdf</a>

GitHub Code:

<a>https://github.com/pathak22/noreward-rl</a>

【完】

本文作者:王小新

原文釋出時間:2017-05-17 

繼續閱讀