天天看點

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

核心思想

  該文提出一種将神經網絡強化學習算法和視覺伺服相結合的方法,本質上還是一種選擇模式的控制器,當滿足一定條件時切換為視覺伺服控制器,不滿足條件時就選擇強化學習控制器。本文采用了兩種強化學習算法Q-learning和 SARSA,并且将神經網絡與強化學習相結合,具體的結合方式就是用一個神經網絡取代了Q-learing中的Q-table查表的過程,将狀态和動作作為輸入,直接輸出對應的Q值,并且利用誤差損失來更新神經網絡的權重參數。損失函數如下

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

  神經網絡既需要計算Q值,又需要計算損失,是以需要一個資料集來幫助神經網絡的訓練,資料集是由目前樣本和之前看到過的樣本構成的,每個樣本都包含目前的狀态,動作,更新後的狀态,及對應的回報等資訊。每疊代一次就有一個新的樣本被添加到資料集中,并且與之最相似的那個樣本會被取代,這樣就避免了資料集無限擴張的問題,相似性計算方法如下

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

  基于神經網絡的Q-learning學習過程如下圖所示,SARSA與之類似,隻是Q值更新的方式不同

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

  整個智能控制器的處理流程如下圖所示

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

  該文提出一種兩步法的混合控制器,在第一步時,隻使用基于神經網絡的強化學習控制器;在第二步時,則根據條件選擇使用基于神經網絡的強化學習控制器或者基于圖像的視覺伺服控制器。如何區分這兩個步驟呢?作者将相機視野圖像劃分為以下區域

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

其中較大的藍色矩形表示第一期望區域,較小的紫色矩形表示第二期望區域。如果目标特征點處于第一期望區域之外,也就是白色的位置,則處于第一步驟,使用強化學習控制器完成控制操作;如果目标特征點處于第一期望區域内,則根據是否在第二期望區域來選擇控制器,如果在第二期望區域内采用視覺伺服控制器,否則采用強化學習控制器。

創新點

  • 提出一種融合強化學習和視覺伺服的混合控制器
  • 提出一種基于神經網絡的強化學習算法,并定義了資料集和更新方法

算法評價

  這篇文章我覺得并沒有很大的突破,将神經網絡和強化學習相結合不是他的原創思路,而這種兩步法,根據特征點的位置來選擇控制器的思路,其實和之前讀的一篇文章《A Hybrid Visual Servo Controller for Robust Grasping by Wheeled Mobile Robots》也沒有本質上的差别,還是把強化學習與視覺伺服進行了機械的組合,而不算是深度融合。

如果大家對于深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《Neural network Reinforcement Learning for visual control of robot manipulators》

繼續閱讀