ICRA 2023論文頂流，Franka機器人成為強化學習（RL）與觸覺回報類研究最受歡迎的研究平台

大資料文摘授權轉載自機器人大講堂

作者：Jack

2023年IEEE機器人與自動化國際會議（ICRA2023）上，不僅出現了許多令人耳目一新的前沿機器人産品，還相較以往誕生了更多更專業的機器人相關前沿論文。這些産品和論文分别展示和論述了機器人領域最新的研究成果和發展趨勢，為産學研界提供着一個個探讨機器人技術最新進展的重要方向。

深度學習和觸覺回報作為近年來機器人機熱度頗高的領域，在本次會議論文中的占比非常大。我們在相關内容中，挑選了機器人深度學習領域幾篇頗具代表性的論文進行展開綜述性解讀，為國内機器人從業者和研究者提供一些新的思路。

值得注意的是，在這些論文中，有絕大多數的研究者選擇了采用Franka機器人進行實驗驗證。

細分領域關注度日益提升

近年來，強化學習（Reinforcement Learning，簡稱RL）已經成為機器人+機器學習一個頗具前景的領域。

強化學習（RL）技術可以幫助研究者進一步優化機器人行為，提高機器人靈活性，使機器人在面對變化的環境時更加靈活，适應不同的環境和任務。

同時，強化學習（RL）還能提供一種開發自主機器人的途徑，這種機器人可以在最少的人類幹預下掌握某些獨立行為，這大幅拓展機器人應用領域，使機器人可以在如家務、食品制備、元件組裝等更多領域得到應用。

為此，針對強化學習（RL）的各個細分領域研究正在緊鑼密鼓地展開。本次ICRA2023論文中，非常多強化學習（RL）延伸的概念和思路正被提出并實踐。

例如在一篇名為《RLAfford: End-to-End Affordance Learning for Robotic Manipulation》的文章中就發現，在互動式環境中學習操作三維對象一直是強化學習中一個具有挑戰性的問題，人們很難訓練一種政策來囊括所有具有不同語義類别、不同形狀幾何形狀和多功能的對象，為此他們将研究瞄準了操作過程中的聯系資訊，并首次提出了一種新的端到端的深度學習架構，嘗試以一種統一的互動規則以覆寫描述不同類型的操作任務，未來有望為基于RL的操作開發開辟一條新的道路。

無獨有偶，一篇名為《Developing cooperative policies for multi-stage reinforcement learning tasks》的文章中，同樣發現強化學習算法面對多層級任務時必須利用一系列獨立的技能作為基礎才能解決更高層次的推理任務。為此他們提出了一種協同連續政策（CCP）的方法，使連續代理能夠協同解決長時間範圍的多階段任務，這幫助算法主體能夠更好了解下一個任務，進而為任務的長期連貫性開發提供了新思路。

而在名為《Active Predictive Coding: Brain-Inspired Reinforcement Learning for Sparse Reward Robotic Control Problems》的文章中，研究團隊也發現了傳統深度學習場景落地所面臨的困難，是以他們提出了一種通過神經生成編碼（NGC）的神經認知計算架構機器人控制方法，并設計了一個完全由預測處理電路建構的代理，促進了從稀疏獎勵的動态線上學習，展現了規劃即推理的原則。

針對強化學習（RL）的研究除了理論上的開拓，大多數論文中也都将研究結論放到了機器人實體上進行檢驗驗證以證明算法的可靠性。我們發現，由于Franka Emika機器人能保持末端執行器的姿勢和速度穩定，能幫助研究者更好擷取機器人的實時狀态和外部裝置的力回報情況，并進一步分解子任務，進而加速了機器人的研發效率，這使得Franka Emika機器人得到大多數研發者的認可，也成為多篇機器人研究論文的重要實驗載體。

深層次算法不斷優化

當然，不僅僅是深度學習（RL）領域相關的政策研究，随着相關研究的深入，人們逐漸發現，RL最初的目标是學習一個最優的政策，使長期累積的回報最大化，但在不斷的機器人研究中，現實世界的大多場景中，由于環境互動的複雜性與不可控性，學習樣本資料量較大，導緻傳統RL的獎勵機制和可觀察性難以實作，同時，虛拟模組化的實體現實映射非常具有挑戰性。

是以，在RL的基礎上，一些進一步優化的理論和方法正被提出。例如模仿學習（IL）、元學習（Meta-learning）、離線強化學習（ORL）、深度強化學習（DRL）、多層級強化學習（HRL）等延伸概念以及研究開始日益興盛，并在機器人實際産品上，展現出了更大的研究和附屬開發價值。

例如加州大學伯克利分校與谷歌研究人員一篇名為《Demonstration-Bootstrapped Autonomous Practicing via Multi-Task Reinforcement Learning》的内容中就指出，由于機器人面對陌生重置環境需要重新探索、學習，使用傳統強化學習（RL）很難直接将機器人放置在廚房等變量環境中進行長時間的工作，而是需要在訓練的過程中不斷加入大量的人為幹預和矯正。

為此他們提出了一種示範引導自主練習（DBAP）的全新機器人學習系統，這套系統隻需借助少量樣本資料就能實作多任務示範，進而可以将RL擴充到目标任務，使整個學習過程更高效，并引導政策學習和行為進行自主實踐，最終顯示出執行長時間多步驟任務的能力。

為了驗證這一系統，他們将實驗結果放在一個7自由度的Franka Emika機器人上進行了測試，讓機器人分别進行廚房中三個不同類型的任務，而這每種運動都需要不同的控制政策。實驗結果證明，這種結合了低級别的ORL和進階别圖形化搜尋模型系統，能夠幫助機器人不需要狀态估計，可以直接從視覺輸入中學習，未來有望提高自主學習行為的可靠性。

又例如ICRA2023一篇名為《Seq2Seq Imitation Learning for Tactile Feedback-based Manipulation》的文章中就嘗試在深度學習的基礎上，融合模仿學習和觸覺感覺的特點。為此，他們開發了Seq2Seq這種新的序列模型，試圖解決需要頻繁接觸的操作任務樣本導緻的環境動态複雜性以及可觀察性問題。

在研究中，作者團隊嘗試首先用Seq2Seq模仿學習模型生成一個機器人－環境的互動序列來大緻估算部分可觀察到的環境狀态變量，然後将觀察到的互動序列轉換為任務本身的控制序列，最後作者将這套在模拟環境下能夠正常運作的Seq2Seq IL模型，放在Franka Emika Panda真實機器人的快速切換任務上進行了實驗驗證。

研究通過将觀察到的互動序列轉化為任務的控制序列，通過學習機器人－環境互動序列來估計部分可觀測的環境狀态變量。實驗表明，該模型擁有相較傳統強化學習和模仿學習更強的示範學習特性，大幅提高了樣本效率，并能夠有效從專家示範中學習解決實際的即時任務，完成了從環境探索和技能規劃的閉環控制，這也為多階段模仿學習開辟了一個有趣的研究方向。

另外，在一篇名為《Meta-Reinforcement Learning via Language Instructions》的文章中，研究者則采用了元強化學習（meta-RL）的方法，用于解決機器人在多重操作任務中如何使用語言指令來學習技能的挑戰。

該研究團隊開發了一套能利用語言指令來塑造其對任務解釋的元強化學習算法，該算法模拟了類人的學習方式，能夠接受以任務為核心的自由形式化語言指令作為輸入，這極大地提高了算法在基準元世界（Meta-World）中的漸近性能，讓機器人不斷能通過自然語言的指導來學習新的技能并快速試錯。

最後，研究者們還在Franka機器人上進一步實踐了這套算法的可靠性，證明了元強化學習（meta-RL）可以很好地通過為機器人提供例如語言指令等額外的任務資訊，然後通過編碼讓機器人能将語言指令轉化為實際運作流程，這種全新的機器人運動控制方法可以用來提高機器人的算法适應性，也由于語言樣本比密集的獎勵更容易提供，是以這套算法在訓練效率和測試任務成功率方面顯著優于傳統強化學習算法。

結語與未來

通過這些理論和實踐的對照研究可以發現，機器人正成為強化學習和相關算法研究的優秀載體，而強化學習在機器人領域的應用研究以及探索方向也非常廣泛。

例如利用強化學習算法，能讓機器人可以學習如何成功抓取未知物體，并根據環境回報資訊來改善其抓取政策。例如借助深度學習算法，可以用于将仿真環境中的政策轉化為實際機器人上的可執行政策，以實作更高效的機器人控制。

又例如研究者也可以利用強化學習，讓機器人可以通過觀察人類或其他機器人的行為來學習如何執行任務，并逐漸優化其行為政策，實作更進一步的任務分層和拆解，進而完成多樣化的機器人操作任務。還有能通過強化學習算法，更好融合機器人的實體模型或仿真環境，進而用于學習和實踐更高效的控制政策，以完成機器人的自主要制。

總之，從這些論文來看，目前強化學習在機器人的應用研究已經全面開花。

尤其是GPT技術快速發展後，利用語言指令進行機器人運動控制來提高适應性更是近年來出現的一個具有挑戰性的課題，面對語言資訊的複雜回報信号，如何優化強化學習，進而達到比獎勵機制和資訊擷取方式更為優秀的算法正成為全球機器人研究的熱點。

多篇文章的實踐已經證明，Franka Emika機器人附加的控制接口FCI (Franka Control Interface)，是開展力控制、運動算法、抓取政策、互動場景、觸覺感覺和機器學習等研究和測試的理想平台。使用FCI 可與機器人的本體和抓手建立快速的底層雙向連接配接。可通過快速、直接的底層雙向通信将工作站 PC連接配接到機器人系統，是開放底層C ++接口,穩定的二次開發平台。由于支援ROS，ROS2 ,MoveIt，MATLAB，Simulink等平台，這樣可以提供機器人的目前狀态并對其實施1 kHz的實時控制。

Franka Emika亞太區商務負責人衛蔔源表示，Franka機器人始終保持着對最前沿機器人技術的探索和開拓，在ICRA2023論文集中就有130餘篇論文采用了Franka機器人作為研究平台，同時我們也從二次開發使用者的角度對使用者進行技術支援和教育訓練，使機器人能夠更好地展現研究成果，未來在各個領域更好地服務于人類社會。感興趣的小夥伴可以關注如下視訊号獲得更多的案例視訊，或者掃碼文章底部的二維碼獲得更多的咨詢。

關于 Franka Emika

Franka Emika是一家總部位于慕尼黑的機器人公司，由Sami Haddadin和他的兄弟 Simon，以及一支經驗豐富的機器人專家團隊于 2016 年創立。公司自成立以來不斷發展壯大，現有員工超200人。Franka Emika 是開發具有人類觸覺的機器人技術的先驅，被認為是過去 140 年來德國最重要的發明之一。它具有類似于人類手臂的獨特靈巧性，靈活且安全。在中國區，Franka Emika全權委托TQ集團提供全流程的機器人服務。

ICRA 2023論文頂流，Franka機器人成為強化學習（RL）與觸覺回報類研究最受歡迎的研究平台

ICRA 2023論文頂流，Franka機器人成為強化學習（RL）與觸覺回報類研究最受歡迎的研究平台

繼續閱讀

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

Temporal Difference Variational Auto-Encoder文章動機：

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

今天來給大家介紹一下基于強化學習的時間行為檢測自适應模型

利用DQN解決Gym庫的CartPole問題

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼