論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

2023-08-01 04:17:36

核心思想

該文提出一種将神經網絡強化學習算法和視覺伺服相結合的方法，本質上還是一種選擇模式的控制器，當滿足一定條件時切換為視覺伺服控制器，不滿足條件時就選擇強化學習控制器。本文采用了兩種強化學習算法Q-learning和 SARSA，并且将神經網絡與強化學習相結合，具體的結合方式就是用一個神經網絡取代了Q-learing中的Q-table查表的過程，将狀态和動作作為輸入，直接輸出對應的Q值，并且利用誤差損失來更新神經網絡的權重參數。損失函數如下

神經網絡既需要計算Q值，又需要計算損失，是以需要一個資料集來幫助神經網絡的訓練，資料集是由目前樣本和之前看到過的樣本構成的，每個樣本都包含目前的狀态，動作，更新後的狀态，及對應的回報等資訊。每疊代一次就有一個新的樣本被添加到資料集中，并且與之最相似的那個樣本會被取代，這樣就避免了資料集無限擴張的問題，相似性計算方法如下

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

基于神經網絡的Q-learning學習過程如下圖所示，SARSA與之類似，隻是Q值更新的方式不同

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

整個智能控制器的處理流程如下圖所示

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

該文提出一種兩步法的混合控制器，在第一步時，隻使用基于神經網絡的強化學習控制器；在第二步時，則根據條件選擇使用基于神經網絡的強化學習控制器或者基于圖像的視覺伺服控制器。如何區分這兩個步驟呢？作者将相機視野圖像劃分為以下區域

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

其中較大的藍色矩形表示第一期望區域，較小的紫色矩形表示第二期望區域。如果目标特征點處于第一期望區域之外，也就是白色的位置，則處于第一步驟，使用強化學習控制器完成控制操作；如果目标特征點處于第一期望區域内，則根據是否在第二期望區域來選擇控制器，如果在第二期望區域内采用視覺伺服控制器，否則采用強化學習控制器。

創新點

提出一種融合強化學習和視覺伺服的混合控制器
提出一種基于神經網絡的強化學習算法，并定義了資料集和更新方法

算法評價

這篇文章我覺得并沒有很大的突破，将神經網絡和強化學習相結合不是他的原創思路，而這種兩步法，根據特征點的位置來選擇控制器的思路，其實和之前讀的一篇文章《A Hybrid Visual Servo Controller for Robust Grasping by Wheeled Mobile Robots》也沒有本質上的差别，還是把強化學習與視覺伺服進行了機械的組合，而不算是深度融合。

如果大家對于深度學習與計算機視覺領域感興趣，希望獲得更多的知識分享與最新的論文解讀，歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

核心思想

創新點

算法評價

繼續閱讀

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

Temporal Difference Variational Auto-Encoder文章動機：

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

今天來給大家介紹一下基于強化學習的時間行為檢測自适應模型

利用DQN解決Gym庫的CartPole問題

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼