編譯 | 陳駿達
編輯 | Panken
智東西8月1日消息,7月15日,迪士尼公布了一篇16頁的論文,詳細介紹了他們新型雙足機器人BD-X的主要設計和控制方法。這個機器人外形酷似《機器人總動員》裡的“瓦力”,靈感源自于《星球大戰》中的同名機器人。其硬體采用标準零件和3D列印外殼,腿部有5個自由度,通過強化學習掌握了動畫人物的行走姿态,動作靈巧流暢,還鍛煉出跨越複雜地形的能力。
在不久前的IEEE活動上,這個迪士尼機器人還跟杭州宇樹科技的機器狗面對面炫技鬥舞。
▲迪士尼BD-X機器人與宇樹Go2互動(圖源:YouTube)
更早之前,它在今年3月的英偉達GTC大會上作為驚喜嘉賓壓軸出場,與英偉達創始人兼CEO黃仁勳親密互動,還搖頭晃腦撒嬌賣萌。
▲酷似瓦力的BD-X機器人與黃仁勳在GTC大會上互動(圖源:英偉達)
這一機器人以娛樂為目的的設計理念極大降低了硬體複雜度與成本。但迪士尼為這台機器人加上了額外的揚聲器、天線、頭燈和眼睛,這讓它能以更多的方式表現自己的“情緒”。
雖然BD-X看上去活靈活現,似乎真的能了解人們說的話,但其實它并不具備主動的感覺和行為能力。它的一舉一動都是通過人工操作實作的。這台機器人配備了來自英偉達的機載計算機Jetson,能将人類指令與訓練時積累的經驗結合,輸出最終的行動指令。
▲論文首頁截圖(圖源:迪士尼)
論文位址:https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/
一、機械設計簡單有效,服務娛樂與創意目的
迪士尼在設計BD-X機器人時選擇了與大多數企業都不同的路徑。他們并不追求最好、最強大的機械設計,而是選擇了能夠滿足創意和娛樂目的的簡單設計。研究者成功內建了動畫内容、設計、控制、實時操縱等元素,并用不到1年的時間實作了定制機器人角色的快速開發。
這一機器人主要使用了市面上的标準化零件,而外殼則是3D列印的,但經過軟體調試後,仍然可以在降低硬體複雜度的前提下實作不錯的表現。
▲迪士尼BD-X機器人設計圖(圖源:迪士尼)
這一雙足機器人的總重為15.4公斤,高度為0.66米。每條腿上有5個自由度,而頭部與頸部則有4個自由度。腿部的高自由度使得這一機器人能完成大幅度的動作,而頭頸部的高自由度則讓機器人可以通過動作表現各種妙趣橫生、情感豐富的動作。
▲BD-X機器人在迪士尼樂園亮相,畫面最右側的二人為操作員(圖源:YouTube)
迪士尼的工程師還通過巧妙的設計讓機器人能在沒有膝蓋彎曲執行器的情況下,依賴與地面的接觸實作逼真的膝蓋彎曲效果。這一機器人配備一塊微控制器驅動的通訊闆,能以600赫茲的頻率實作内置電腦、執行器和慣性測量單元之間的通訊。1塊可拆卸電池為機器人供電,能維持至少1個小時的運轉時間。
有趣的是,除了頭部和軀幹上配備的揚聲器,這台機器人還有具備執行器的天線、能點亮的眼睛和一盞頭燈。這些裝置為機器人提供了更多表現情緒的方式,同時其控制和驅動都是相對獨立的,是以可以選擇是否搭載這些功能。
二、利用強化學習掌握動畫動作,在英偉達Isaac Gym中模拟訓練
為了給機器人動作提供一個清晰的架構,迪士尼的研究人員将機器人的動作分為以下3類。
1、持續性動作:沒有明确的起點和終點。機器人保持平衡,并對測量到的狀态和連續的控制輸入流做出響應。
2、周期性運動:有一個周期性的相位信号傳遞給政策。在這種模式下,相位信号無限循環。
3、偶發性運動:有預定的持續時間。政策接收單調遞增的相位信号,一旦運動結束,就會強制過渡到新的運動。
▲BD-X機器人的3種運動類型(圖源:迪士尼)
機器人的控制政策是機器人學中的重要概念,指的是将機器人的狀态映射為動作或電機指令的函數,使機器人能實作預期的行為和任務。
研究人員讓BD-X機器人通過強化學習的方式掌握了多種控制政策,分别針對上述3種類型的動作。
根據機器人的CAD模型,迪士尼的研究人員建構出了這一機器人的準确實體形态、執行器和它與環境的互動,并通過英偉達的機器人訓練平台Isaac Gym模拟出這一機器人的剛體動力學特征。研究人員還通過定制的執行器模型進一步模拟了這一機器人的完整動力學特征。
▲BD-X模拟訓練系統(圖源:迪士尼)
BD-X機器人的動作是根據動畫内容學習的。迪士尼的研究人員提取了動畫中人物的特定動作名額,如軀幹的全局位置、關節的位置和矢量等資訊,這些資訊将用來訓練這一BD-X機器人模仿動畫中的動作。
在Isaac Gym的模拟訓練中,機器人會收到強化學習系統的獎勵和懲罰。這一系統會考慮動作與動畫人物的相似度、動作的規範程度(如有無關節扭曲、動作是否流暢)以及機器人是否生存(“死亡”被定義為頭和軀幹與地面接觸,或頭和軀幹碰撞),并給出相應的獎懲。
訓練過程中,系統還會模拟出随機的擾動、牽引力還有不同的地貌,這提升了機器人的魯棒性(Robustness,指抗幹擾性或穩定性)。
三、并無主動感覺和行動能力,通過複雜控制器實作運動
迪士尼的研究人員稱,在釋出這篇論文時,BD-X機器人已經有過累計10小時的公開展示運作時間,在這10小時裡這一機器人表現完美,一次都沒有摔倒。許多觀衆都被這一機器人可愛的外表吸引,而未注意到這一機器人的操縱者。
實際上,BD-X機器人并無任何主動的行為和感覺能力,其動作都是通過專業人員操縱一個複雜的控制器實作的。在運作期間,操作員可以使用直覺的遙控互動界面控制這一機器人。這一操縱裝置較為複雜,有2個搖杆、2塊路徑闆,正反面總計有十幾個按鍵。
▲BD-X通過控制器實作靈動的動作(圖源:迪士尼)
在虛拟訓練結束後,神經控制政策的權重被當機,政策網絡被部署到機器人的機載計算機Jetson上。部署後的控制政策和低層次控制器直接與機器人的硬體互動,還能融入慣性測量單元和執行器的測量資料。
機器人内置的動畫引擎能自動将操作員輸入的指令,與機器人内置的政策控制指令、展示功能信号(天線、眼睛、頭燈的控制信号)和聲音信号結合起來,為控制政策生成最終指令。
▲操作員在英偉達GTC 2024的背景調試BD-X機器人(圖源:YouTube)
人工操縱指令和内置政策控制指令的結合能避免機器人出現訓練過程中研究人員希望規避的動作,如摔倒、動作僵硬不流暢等等。
▲BD-X機器人展現出很強的魯棒性,能在多種複雜地面情況下保持穩定(圖源:迪士尼)
展示功能和音頻是機器人的受控元素,在表現角色方面起着關鍵作用,但不會影響系統的動态。它們的行為通過動畫引擎發出的動畫信号和狀态回報與機器人的運動同步。
結語:AI讓動畫人物走進現實,“不實用”的機器人也有價值
其實迪士尼是機器人領域的資深玩家,從上世紀60年代以來他們就一直深耕機器人相關研究,并且在迪士尼樂園中嘗試部署他們的研究成果,探索讓動畫人物走進現實世界的各種方式和場景。
▲迪士尼過去在機器人領域的相關研究(圖源:迪士尼)
AI技術的發展讓機器人的一舉一動都更為逼真自然,而強化學習讓專業動畫師制作的人物動作在現實中落地。雖然BD-X機器人并不像其它雙足機器人那樣能進工廠、上流水線,但我們也樂見娛樂目的的機器人技術進一步發展,讓普通人也能享受到機器人帶來的快樂。
來源:迪士尼