論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

2023-08-01 04:17:25

目錄

論文意義
具體思路
- 強化學習算法的選擇
- 測試有效性
- 網絡架構
- 回報設計
實驗結果分析
- 仿真訓練
- 實驗測試。
- - 實驗對照
  - 虛拟環境測試
  - 真實環境測試
  - 實驗分析
實驗結論
不足之處（個人意見）

論文意義

規劃機器人的運動，從目前位置移動到目标位置。

傳統方法：基于雷射測繪來獲得一個全局障礙圖（“Simultaneous localization and

mapping: part i），然後對機器人的行為進行規劃。

但是問題主要有二：建立全局障礙圖比較耗時；對用于測繪的裝置精度要求較高。

由于可見光與wifi定位技術的發展，移動機器人可以獲得一個實時的相對位置。但在沒有全局障礙圖的情況下，僅僅有實時位置仍然很難做出全局規劃路線。本文提出了，用異步深度強化學習算法來訓練機器人在沒有障礙圖的情況下，僅僅使用十維的稀疏特征值與實時位置就能輸出機器人的線速度與角速度，能夠從目前位置移動到目标位置。

具體思路

強化學習算法的選擇

選用了ADDPG（異步DDPG算法）

因為DQN，NAF，DDPG都利用了經驗回放原則，這一類離線學習算法的主要問題是采樣效率低，難以大規模采樣。

而異步多線程的A3C算法需要多個并行仿真環境，這使其不适用于一些特定的仿真引擎（V-REP）。

另外，DQN不能運用于連續控制，NAF雖然可以運用于連續控制但其參數比DDPG多，是以最終選擇了DDPG算法并擴充成異步。

測試有效性

利用開源環境gym中的小例子——Pendulum-v0，測試DDPG與ADDPG采集樣本的效率。結果如下：

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

網絡架構

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

首先是14維的輸入特征向量，其中有10維是雷射探測器的輸入資訊，另外兩維是上一時刻的線速度與角速度，最後兩維是機器人的實時位置。對于Actor網絡而言，輸入經過三個全連接配接層後，分别用sigmoid函數與tanh函數激活，因為線速度保證非負，最後融合成二維輸出動作action。

回報設計

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

即如果這一步導緻回合結束，那麼reward不進行衰減，使用原始reward。

實驗結果分析

仿真訓練

環境模拟器使用的是V-REP。兩個環境模拟圖如下所示：

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

這兩個環境都是模拟了10*10 平方的室内環境，白色的代表障礙物，黑點選用的是斑龜機器人，環境2相對來說障礙物更加緊湊，學習起來更為困難。在單一的Geforce GTX 1080 GPU上用Adam優化器訓練近20h的結果如下：

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

環境1與2使用不同的y軸，y軸代表的是每個批次q的均值。由于環境2更容易碰撞，是以其q值要小于環境1。

環境1訓練出來的稱為model1，同理，環境2的稱為model。

實驗測試。

使用基于Turtlebot的Kobuki機器人， Intel Core i7-4700 CPU ，SICK TiM551（雷射測距）進行虛拟環境與真實環境的測試。

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

實驗對照

一共有四個模型可以對比：其一為可以建立全局障礙圖的機器人1；其二為與ADDPG模型類似，也隻從10個特定方向進行雷射采樣，随後被擴充為810維的擁有局部障礙圖的機器人2；其三為環境1訓練出來的機器人3；其四為環境2訓練出來的機器人4。

虛拟環境測試

實驗目标：機器人能依次通過1-10一共10個目标位置，且為了便于評價，機器人會依次經過五次。實驗結果如下：

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

除了機器人2，其他機器人都能順利完成測試任務。機器人1擁有全局障礙圖，隻是用做對比，機器人3與4訓練環境與本次測試環境不一緻，但仍然能夠出色完成任務，表現了極強的适應力，相比之下，機器人2雖然也是同樣是10維采樣，但由于卻乏強化學習算法的支撐，沒有能夠自主完成測試。為了更好的評價模型，還使用了其他的性能名額。

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

上述三張圖依次代表了控制頻率（每分鐘指令輸出次數）、移動時間、移動距離。由此可見，機器人3與4的控制頻率很高，查詢路徑很快。

真實環境測試

由于機器人3路徑規劃不如機器人4平滑，故真實環境測試僅僅隻對比了機器人2與機器人4。測試目标為機器人在複雜的室内環境能夠依次通過0-9的目标位置。結果如下：

論文閱讀之Virtual-to-real Deep Reinforcement Learning論文意義具體思路實驗結果分析實驗結論不足之處（個人意見）

結果還是機器人4能夠出色完成測試任務。

實驗分析

在仿真測試與真實環境測試中，經過強化學習訓練的機器人能夠在未知環境中通過測試任務，适應能力比較強，但是訓練後的機器人還是一定程度上收到原始訓練環境的影響，對比機器人3、4，4會對障礙更加敏感。

此外，強化學習訓練的機器人預測路徑比較曲折，因為其沒有預測能力也沒有存儲曆史資訊。

（時序資訊（attention，LSTM））

實驗結論

本文的目的不是為了取代基于地圖的導航機器人，因為在大型複雜戶外環境中，基于地圖的機器人總是能給出一條可靠的路線，而強化學習模型很難做到。但是在一些相對比較固定的室内場所，這種強化學習模型還是有可取之處的。

（無地圖導航，陌生險惡環境）

不足之處（個人意見）

測試時隻使用了一種定位方法（雷射測距，SICK TiM551 ）
真實環境中并未測試環境1訓練的模型的結果，所訓練的機器人是否真的可以應用于真實通用環境還是隻是為了滿足測試所修改過的僞真實環境
訓練一個符合要求的機器人耗時多少？文中提到的20h并未說模型可以收斂。

論文筆記強化學習機器學習

上一篇: 機器人操作綜述——A Review of Robot Learning for Manipulation: Challenges, Representations, and Algorithms

下一篇: 論文筆記 Joint Inference of Reward Machines and Policies for Reinforcement Learning摘要介紹準備工作JIRP算法優化案例研究Reference

繼續閱讀