天天看點

每天一篇論文 296/365 Reinforcement Learning Tracking Control for Robotic Manipulator

Reinforcement Learning Tracking Control for Robotic Manipulator With Kernel-Based Dynamic Model

摘要

強化學習(RL)是一種通過與環境互動來獲得最優控制政策的有效學習方法。然而,RL在執行連續控制任務時面臨許多挑戰。本文在不需要了解和學習機械手動力學模型的情況下,提出了一種基于核函數的RL動力學模型。另外,通過核函數采樣形成一個新的耦合函數來描述機器人的RL控制問題。在該算法中,根據跟蹤控制的特點定義了一個獎勵函數,以加快學習過程,然後提出了一種基于核轉移動态模型的RL跟蹤控制器。最後,提出了一個評價系統來評價該政策對RL控制任務的優劣。仿真結果表明,與其他學習算法相比,該方法能有效地完成機器人的跟蹤任務,在較小的力/力矩輸入下獲得相似甚至更好的跟蹤性能,證明了該算法的有效性和有效性。

無模型和有模型的強化學習

雖然RL已被廣泛地研究和大量的RL方法被開發并被廣泛用于執行控制任務,但仍然存在一些問題。為了實作良好的性能,無模型的RL(MFRL)算法(不學習控制系統的動态模型以學習最優控制政策)必須通過與環境互動來進行耗時的訓練和高層次的樣本複雜度。

對于基于模型的RL(MBRL)方法(通過動态模型或動态模型逼近器有效地學習最優控制政策),它們可以通過函數逼近器在少量樣本的基礎上有效地學習動力學;然而,在非線性系統或高維空間中,例如機器人操作器,這些方法不能像在簡單的場景中那樣有效地工作。

本文旨在借鑒無模型方法和基于模型算法的優點,為機器人跟蹤控制問題開發一種RL控制器。本文的主要貢獻是在不了解和學習機械手動力學模型的情況下通過核函數采樣建立元組來表示RL跟蹤控制問題,然後提出一種MBRL算法來完成機器人的跟蹤控制任務。

本文主要工作

首先,通過核函數采樣建立了基于核的過渡動力學模型P a,并設計了相應的狀态sa和獎勵ra,形成了描述機器人RL系統的新元組(sa,a,pa,ra,γ)。

然後,利用MBRL方法搜尋最優控制政策。

最後,描述了一個評價系統來評價在每次疊代中獲得的最優控制政策的品質,并加速學習過程。

仿真結果表明,該算法與基于核函數的過渡動态模型能夠有效地協同工作,跟蹤性能明顯優于轉矩輸入較小的基準方法。

方法

每天一篇論文 296/365 Reinforcement Learning Tracking Control for Robotic Manipulator