西風發自凹非寺

量子位 | 公衆号 QbitAI

投籃、運球、手指轉球…這個實體模拟人形機器人會打球：

會的招數還不少：

一通秀技下來，原來都是跟人學的，每個動作細節都精确複制：

這就是最近的一項名為PhysHOI的新研究，能夠讓實體模拟的人形機器人通過觀看人與物體互動（HOI）的示範，學習并模仿這些動作和技巧。

重點是，PhysHOI無需為每個特定任務設定具體的獎勵機制，機器人可以自主學習和适應。

而且機器人的身上總共有51x3個獨立控制點，是以模仿起來能做到高度逼真。

一起來看具體是如何實作的。

模拟人形機器人變身「灌籃高手」

這項工作由來自北京大學、IDEA研究院、清華大學、卡内基梅隆大學的研究人員共同提出。

經研究人員介紹，此前大多數類似工作，存在模仿動作孤立、需特定任務的獎勵、未涉及靈巧的全身運動等局限。

而他們提出的PhysHOI，應用動作捕捉技術提取HOI資料，然後使用模仿學習來學習人體運動和物體控制，解決了這些問題。

其中，HOI資料重要組成部分之一是涵蓋了人體運動、物體運動、相對運動的運動學資料（Kinematic Data），記錄了位置、速度、角度等資訊。

另外，動态資料（Dynamic Data）反映了運動過程中的實時變動和更新，也很重要。

為了彌補HOI資料中動态資訊的不足，研究人員引入了接觸圖（contact graph，CG）。

CG的節點由機器人的肢體部件和物體組成；每條邊則是一個二進制接觸标簽，隻表達“接觸”或“不接觸”兩種狀态。

此外，還可以将多個肢體部件放到一個節點中，形成一個聚合CG（Aggregated CG）。

具體來說，PhysHOI方法是：

首先通過運動捕捉擷取參考HOI狀态序列，包含人體運動、物體運動、互動圖和接觸圖。

然後用第一幀的資訊初始化實體模拟環境，建構包含目前模拟狀态和下一個參考狀态的系統狀态。

接下來輸入政策網絡生成的動作控制人形機器人，實體模拟器根據動作更新場景中人體和物體的狀态，計算包含運動比對、接觸圖等多個方面的獎勵。

利用獎勵、狀态和動作樣本優化政策網絡，采用更新後的政策網絡開始新一輪的模拟過程，如此循環直至網絡收斂，最終獲得能夠重制參考HOI技能的控制政策。

值得一提的是，研究人員在這當中設計了一個與任務無關的HOI模仿獎勵，無需針對不同任務自定義獎勵函數，包括展現運動比對度的身體和物體獎勵、反映接觸正确性的接觸圖獎勵，避免了使用錯誤身體部位接觸物體等局部最優解。

接觸圖獎勵是關鍵

研究人員在兩個HOI資料集上測試了PhysHOI。

其中引入了BallPlay資料集，包含多種全身籃球技能。

研究人員在GRAB資料集的S8子集中選擇了5個抓取案例，以及BallPlay資料集的8個籃球技能。

以此前的DeepMimic、AMP等方法作為基線，為公平比較，研究人員将其做了修改，以适應HOI模仿任務。

結果顯示，以往隻使用運動學獎勵的方法無法準确複現互動，球會掉落或抓握失敗。

而在接觸圖的指導下，PhysHOI成功進行了HOI模仿。

PhysHOI在兩個資料集上都獲得最高的成功率，分别為95.4%和82.4%，同時也取得最低的運動誤差，顯著優于其它方法。

消融研究表明，接觸圖獎勵能有效避免隻使用運動資訊的方法陷入局部最優，指導機器人實作正确接觸。

如果沒有接觸圖獎勵，人形機器人可能無法控制球，或者錯誤地使用身體其它部位控制球：

論文連結：https://arxiv.org/abs/2312.04393

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

「灌籃高手」模拟人形機器人，一比一照搬人類籃球招式

模拟人形機器人變身「灌籃高手」

接觸圖獎勵是關鍵

繼續閱讀

特斯拉攜最新最“硬核”人形機器人亮相中國國際消費電子博覽會

掃地機器人跨界造車，追覓想做“第二個華為”？

中美AI競賽：既決高下，又決生死，就在無人駕駛和機器人領域！

2024年中國籃球名人堂入堂人物：鞏曉彬+苗立傑領銜齊麟奶奶入圍

國産力量走向世界！智元機器人率先開啟通用機器人商用量産

20張不常見的圖檔，看看人類的遺傳基因有多強大

4年内AI統治腦力工作，人類搬磚？馬斯克預言300億機器人占領世界

曝光！不僅僅機器人，春晚裡暗藏的4大投資機會！

粵籍機器人，如何搶赢未來？

一場流感奪走了1億生命：人類最大的浩劫，竟改變了世界命運

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？

百年前，美國“人類動物園”罕見影像，土著人根本沒有尊嚴可言！

人類可能已錯過自救的時間視窗了

一場馬拉松扒光了中國機器人的底褲？屬實有點幽默了

人類曆史上颠覆認知的6個理論，每一個都推動着人類文明的進步

宇樹機器人租不出去了