天天看點

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

作者:機器之心Pro

機器之心報道

機器之心編輯部

足式機器人領域又一次迎來創新!CMU 與 ETH Zurich 團隊聯合研發了一個名為 「靈活但安全」(ABS,Agile But Safe)的新架構,為四足機器人在複雜環境中實作高速運動提供了解決方案。ABS 不僅在避免碰撞方面展現出高效能力,還在極速上達到了前所未有的 3.1 米秒!

在高速機器人運動領域,實作同時兼顧速度和安全一直是一大挑戰。但現在,卡内基梅隆大學(CMU)和蘇黎世聯邦理工學院(ETH)的研究團隊帶來了突破性進展。他們開發的新型四足機器人算法,不僅能在複雜環境中高速行進,還能巧妙避開障礙,真正做到了「靈活而安全」。

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

論文位址: https://arxiv.org/pdf/2401.17583.pdf

在 ABS 的加持下,機器狗在各種場景下都展現出了驚豔的高速避障能力:

障礙重重的狹窄走廊:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

淩亂的室内場景:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

無論是草地還是戶外,靜态或動态障礙,機器狗都從容應對:

遇見嬰兒車,機器狗靈巧躲閃開:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

警告牌、箱子、椅子也都不在話下:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

對于突然出現的墊子和人腳,也能輕松繞過:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

機器狗甚至還可以玩老鷹捉小雞:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

ABS 突破性技術:

RL+ Learning model-free Reach-Avoid value

ABS 采用了一種雙政策(Dual Policy)設定,包括一個「靈活政策」(Agile Policy)和一個「恢複政策」(Recovery Policy)。靈活政策讓機器人在障礙環境中快速移動,而一旦 Reach-Avoid Value Estimation 檢測到潛在危險(比如突然出現的嬰兒車),恢複政策就會介入,確定機器人安全。

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

創新點 1:怎麼訓練一個靈活政策 Agile Policy?

靈活政策的創新之處在于,與以往簡單地追蹤速度指令不同,它采用目标達成(position trakcing)的形式來最大化機器人的靈活性。這一政策訓練機器人發展出感覺運動技能,以在沒有碰撞的情況下達到指定目标。通過追求基座高速度的獎勵條件,機器人自然學會在避免碰撞的同時實作最大靈活性。這種方法克服了傳統速度追蹤(velocity tracking)政策在複雜環境中可能的保守限制,有效提高了機器人在障礙環境中的速度和安全性。Agile Policy 在實機測試中極速達到了 3.1m/s

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

創新點 2:學習 Policy-conditioned reach-avoid value

「達防」(Reach-Avoid, RA)值學習的創新之處在于,它采用了無模型的方式學習,與傳統的基于模型的可達性分析方法不同,更适合無模型的強化學習政策。此方法不是學習全局 RA 值,而是使其依賴于特定政策,這樣可以更好地預測靈活政策的失敗。通過簡化的觀測集,RA 值網絡可以有效地概括并預測安全風險。RA 值被用于指導恢複政策,幫助機器人優化運動以避免碰撞,進而實作在保證安全的同時提高靈活性的目标。

下圖展示了針對特定障礙物集合學習到的 RA(達防)值。随着機器人速度的變化,RA 值的分布景觀也相應變化。RA 值的符号合理地訓示了靈活政策的安全性。換句話說,這張圖通過不同的 RA 值展示了機器人在不同速度下,面對特定障礙物時的安全風險程度。RA 值的高低變化反映了機器人在不同狀态下執行靈活政策時可能遇到的安全風險。

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

創新點 3:用 Reach-Avoid Value 和恢複政策來拯救機器人

恢複政策的創新之處在于,它能使四足機器人快速追蹤線速度和角速度指令,作為一種備用保護政策。與靈活政策不同,恢複政策的觀測空間專注于追蹤線速度和角速度指令,不需要外部感覺資訊。恢複政策的任務獎勵專注于線性速度追蹤、角速度追蹤、保持存活和保持姿勢,以便平滑切換回靈活政策。這種政策的訓練同樣在仿真環境中進行,但有特定的域随機化和課程設定,以更好地适應可能觸發恢複政策的狀态。這種方法為四足機器人提供了在高速運動中快速應對潛在失敗的能力。

下圖展示了當恢複政策在兩個特定情況(I 和 II)下被觸發時,RA(達防)值景觀的可視化展示。這些可視化展示是在 vx(沿 x 軸的速度)與 ωz(繞 z 軸的角速度)平面以及 vx 與 vy(沿 y 軸的速度)平面上進行的。圖中顯示了搜尋前的初始旋轉狀态(即機器人基座目前的旋轉狀态)和通過搜尋得到的指令。簡單來說,這些圖表展示了在特定條件下,通過恢複政策搜尋得到的最佳運動指令,以及這些指令如何影響 RA 值,進而反映機器人在不同運動狀态下的安全性。

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

魯棒性測試

作者在「12kg 負載 / 籃球撞擊 / 腳踢 / 雪地」的四個場景下測試了 ABS 架構的魯棒性,機器狗都從容應對:

CMUÐ實作突破:機器狗點滿靈活值天賦,超高速穿越障礙

研究團隊

這項研究是由 CMU 和 ETH 的研究團隊共同完成。團隊成員包括 Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu 和 Guanya Shi。他們的合作不僅在機器人技術領域取得了重大突破,更開啟了四足機器人新的應用可能。這項技術的成功展示了四足機器人在高速移動和安全避障領域的巨大潛力。未來,這種高速且安全的四足機器人有望在搜救、探險甚至是家庭服務等多個領域發揮重要作用。