天天看點

人工智能行業專題報告:AI大模型賦能人形機器人

作者:景氣度觀察

(報告出品方/作者:國泰君安證券,肖群稀、鮑雁辛)

1. 通用——解決機器人高需求和低滲透率的沖突

1.1. 機器人進化路徑:從固定到移動,從獨立到協作,從單一 到通用

服務機器人商業化落地的前提是産品能提供真實價值,真實價值的判斷在于機器人 能否通用。在全球勞動力短缺的背景下,機器人産業蓬勃發展,2022 年全球服務機 器人市場規模 217 億美元,過去 5 年複合增速超過 20%。然而,在高速發展背景 下,服務機器人滲透率仍然不高,規模化商業落地并不順利。

我們認為原因在于:目前大多數服務機器人都或多或少的存在場景适應性的問題, 如無法适應環境變化,環境變化後,使用者無法通過簡單操作實作場景适配;智能化 程度低,行人避障及功能表現不理想;機器人部署流程複雜(如 SLAM 建圖、目标 點标注等),所有部署操作隻能由機器人現場部署工程師執行,使用者難以操作及參 與,且當需要變更時,仍需現場部署工程師進行操作。以商超場景為例:環境複雜:場景中镂空的貨架(超高類障礙物)、狹窄的通道、易跌落區域、低矮 類障礙物及臨時的攤鋪,考驗機器人的通過性、感覺能力、任務規劃能力。高動态化:商場人流大,易聚集,動态障礙物多,對機器人安全避障能力要求高。特殊物體較多,場景光線變化大:如玻璃護欄、自動扶梯、玻璃轉門、玻璃牆等高 透物體大多數機器人基本無法識别,且容易對雷射雷達産生幹擾,導緻機器人誤判, 發生碰撞、跌落、無法靠近作業。對于依賴視覺傳感器的機器人來說,要在普通光 線、黑暗、過曝等光照條件都能穩定運作難度較大。

以上問題在工業機器人領域同樣存在,影響了工業機器人滲透率的提升,直到協作 機器人 的出 現。2022 年全 球協 作機 器人市 場規 模 89.5 億元人 民币 ,預 計 2022~2028 年市場規模将以 22.05%的增速達到 300 億元。2017~2022 年中國 協作機器人銷量從 3618 台增長至 19351 台,預計 2023 年出貨将超過 2.5 萬台, 2016~2021 年市場規模從 3.6 億人民币增長至 20.39億人民币,複合增速 41.5%。協作機器人也可以被認為是服務機器人,因為他們旨在與人類并肩作戰。傳統工業 機器人在栅欄後與人分開作業,完成的工作也有限,例如焊接、噴塗、吊裝等。協 作機器人更靈活,更智能,更容易合作,更具有适應能力,使汽車、電子等制造行 業能夠将自動化擴充到最終産品組裝,完成任務(例如抛光和施塗塗層)以及品質 檢查等等。

1.2. 如何讓機器人更加通用?

使機器人更加通用,需要機器人的感覺能力、思考和決策能力、行動執行能力的全 面提升。我們認為 GPT(預訓練大預言模型)和人形機器人的出現,是機器人在邁 向通用人工智能的道路上的一大步。感覺世界的能力(機器人的眼睛):機器人自主移動的感覺和定位技術中雷射和視覺 導航是主流應用方案。計算機視覺的發展經曆了基于以特征描述子代表的傳統視覺 方法、以 CNN 卷積神經網絡為代表的深度學習技術,目前通用的視覺大模型正處 于研究探索階段,人形機器人的場景相對工業機器人更通用、更複雜,視覺大模型 的 All in One 的多任務訓練方案能使得機器人更好地适應人類生活場景。一方面, 大模型的強拟合能力使得人形機器人在進行目辨別别、避障、三維重建、語義分割 等任務時具備更高的精确度;另一方面,大模型解決了深度學習技術過分依賴單一 任務資料分布,場景泛化效果不佳的問題,通用視覺大模型通過大量資料學到更多 的通用知識,并遷移到下遊任務中,基于海量資料獲得的預訓練模型具有較好的知識完備性,提升場景泛化效果。

思考和決策的能力(機器人的大腦):目前的機器人都是專用機器人,隻能在限定場 景中應用,即使是機器人抓取,基于計算機視覺,仍然是在限定場景中,算法僅用 于識别物體,如何做、做什麼仍需要人的定義。要讓機器人通用,叫他去澆花,他 就知道去拿水壺,接水,然後澆花,這是需要常識才能完成的事情。如何能讓機器 人擁有常識?在大模型出現之前,這個問題幾乎是無解的。大模型讓機器人可以擁 有常識,進而具備通用性去完成各種任務,徹底改變通用機器人實作的模式。

人類工具和環境的适應性,不用再為了機器人而造工具。執行能力 (機器人的四肢):行動能力(腿)+精細操作(手)。把機器人做成人形,就是為了 讓機器人的執行能力更加通用。機器人執行任務時所處的環境是按照人類的體型建 造起來的:建築、道路、設施、工具等,這個世界是為了友善人類這種人形生物才 這樣設計。如果出現了某種新形态的機器人,人們就必須重新設計一套機器人适應 的全新環境。設計在某個特定範圍内執行任務的機器人相對容易,如果想要提高機 器人的通用性,就必須選擇可以作為分身的人形機器人。此外,人類與人形機器人 更容易有情感上的交流,人形機器人會讓人感到親近。日本機器人專家森昌弘的假 設指出:由于機器人與人類在外表、動作上相似,是以人類亦會對機器人産生正面 的情感。

人工智能行業專題報告:AI大模型賦能人形機器人

1.3. 人形機器人進入商業化前夜

從 2015 年 DARPA Robotics Challenge,到 2019 年人形機器人各種科研項目被 砍,業内普遍唱衰,再到 2022 年特斯拉帶動的百花齊放,人形機器人産業處于螺 旋式向上的發展之中。波士頓動力的 Atlas、Tesla 的 Optimus、小米 CyberOne、 ihmc 的 Nadia,Agility Robotics 的 Nadia、日系 Asimo 與 HRP-5P 都在探索人 形機器人的商業形态。我們對人形機器人發展過程中有代表性的産品進行了梳理:第一台人形機器人 WABOT-1(1973 年)。1973 年日本早稻田大學加藤一郎帶領 團隊研發出世界上第一台真人大小的人形智能機器人——WABOT-1。該機器人有 肢體控制系統、視覺系統和對話系統,胸部裝有兩個攝像頭,手部裝有觸覺傳感器。

本田 E 系列機器人(1986~1993 年),奠定穩定行走基礎。本田推出 E 系列雙足 機器人,E0 到 E6,走路速度由慢變快,從走直線到在台階或坡地上均可實作穩定 行走,為下一步 P 系列類人機器人的研發奠定了基礎,是機器人曆史的裡程碑。本田 P 系列機器人(1993-1997 年)& ASIMO(2000~2011)。1993 年本田開 發第 1 個仿人機器人原型 P1,2000 年 P 系列中的第 4 台也是最後一台機器人 P4 誕生,通俗稱呼阿西莫(ASIMO)。2011 年推出的第三代 ASIMO 身高 1.3 米,體 重 48 公斤,行走速度是 0-9km/h,2012 最新版的 ASIMO,除具備了行走功能與 各種人類肢體動作之外,還可以預先設定動作,并依據人類的聲音、手勢等指令, 做出相應動作。他還具備了基本的記憶與辨識能力。2018 年本田宣布停止人形機器 人 ASIMO 的研發,專注于該技術的更多實際應用。

人工智能行業專題報告:AI大模型賦能人形機器人

HPR 系列機器人(1998~2018)代替建築行業的繁重工作:這是由日本經濟産業 省和新能源與産業技術開發組織贊助,川田工業株式會社(Kawada Industries)牽 頭與國立先進工業科學技術研究院(AIST)和川崎重工株式會社共同研發的通用家 庭助手機器人的開發項目。項目起始于 1998 年 HPR-1(Honda P3),先後推出了 HPR-2P、HRP-2、HRP-3P、HRP-3、HRP-4C、HRP-4 等多個人形機器人。目前 最新的機器人 HPR-5P 于 2018 年釋出,該機器人身高 182cm,體重 101kg,全身 總共 37 個自由度,旨在替代建築行業中的繁重工作。

波士頓動力(1986~2023):腿足式機器人運控技術最前沿,軍事化應用特征明顯。波士頓動力最早因研發的 Big Dog 而被世界聞名,公司釋出了 BigDog、Rise、 LittleDog、PETMAN、LS3、Spot、Handle、Atlas 等多個機器人,從單足、多足 機器人到人形機器人,有着明顯的軍事化應用的路線特征。波士頓動力是一家典型 的技術驅動的公司,從機械結構、算法步态控制、動力系統耗能等方面對機器人持 續疊代更新,核心在于發展腿式機器人以适應不同環境的使用,技術關鍵在于動力 學研究和機器人平衡态的控制。

Digit 系列機器人(2019~2023):具備行走能力,專注物流領域商業化。Digit 系 列是 Agility Robotics 公司在物流領域商業化的嘗試,公司是從俄勒岡州立大學 (OSU)拆分出來的機器人公司,緻力于研發和制造雙足機器人,前後開發了 MABEL、ATRIAS、CASSIE、DIGIT 系列足式機器人。其中 CASSIE 可實作 4m/s 的 驚人配速,是腿足式機器人在快速行走能力上裡程碑式的成果。2019 年,Agility 推 出了人形機器人 Digit,在 Cassie 的基礎上加上了軀幹、手臂,并增加了更多計算 能力,支援負載 18kg 的箱子,可進行移動包裹、卸貨等工作。

人工智能行業專題報告:AI大模型賦能人形機器人

小米“鐵大“機器人(2022):21 年小米曾釋出一款機械狗 Cyberdog,是其在足 式機器人的首次嘗試。2022 年 8 月,小米首個全尺寸人形仿生機器人 CyberOne 亮相秋季釋出會。CyberOne 身高 177cm,體重 52kg,藝名“鐵大”,能感覺 45 種人類語義情緒,分辨 85 種環境語義;搭載小米自研全身控制算法,可協調運動 21 個關節;配備了 Mi Sense 視覺空間系統,可三維重建真實世界;全身 5 種關 節驅動,峰值扭矩 300Nm。

特斯拉 Optimus 機器人(2022 年):推動人形機器人商業化。Optimus 原型機亮 相于 2022 年特斯拉 AI day,身高 1.72m,體重 57kg,可負載 20kg,最快運動 速度 8km/h。目前 Optimus 仍處于研發進展迅速,僅 8 個月機器人已可實作直立 行走、搬運、灑水等複雜動作。

互動型機器人索菲亞(2015)和阿梅卡(2021),面部表情拟人化的嘗試: 索菲亞 (Sophia)是由漢森機器人技術公司(Hanson Robotics)開發的類人機器人,2015 年面世。索菲娅皮膚由 Frubber 仿生材料制成,基于語音識别、計算機視覺技術, 可以識别和複制各種各樣的人類面部表情,并通過分析人類表情和語言同人類對話。阿梅卡(Ameca)由英國領先的仿生娛樂機器人設計和制造公司——工程藝術有限 公司(Engineered Arts)打造,具有 12 個全新的面部緻動器,經過面部表情更新 後,能對着鏡子眨眼、抿嘴、皺眉、微笑。阿梅卡能夠自由進行幾十種仿人類的肢 體運動,被認為是“世界上最逼真機器人”。

人工智能行業專題報告:AI大模型賦能人形機器人

2. AI 大模型+人形機器人:給機器人提供常識

2.1. AI 大模型訓練過程及發展趨勢

大模型 = 預訓練+微調。從 2017 年 Transformer 開始,到 GPT-1、BERT、GPT2、GPT-3、GPT-4 模型的出現,模型的參數量級實作了從億到百萬億量級的突破, 大模型(預訓練模型、Foundation Models)在無标注的資料上進行預訓練,利用 專用的小規模的标注資料對模型進行微調(fine- tuning),可用于下遊任務預測。遷移學習是預訓練模型的主要思想,當目标場景資料不足時,先在資料量大的公開 資料集上訓練基于深度神經網絡的 AI 模型,然後将其遷移到目标場景中,通過目标 場景中的小資料集進行微調,使模型達到要求的性能。預訓練模型極大地減少了模 型在标記資料量下遊工作的需要,進而适用于一些難以獲得大量标記資料的場景。

大模型的發展過程和趨勢:從參數規模上看,大模型經曆了從預訓練模型、大規模 預訓練模型、超大規模預訓練模型的階段,參數量實作了從億級到百萬億級的發展。從資料模态來看,大模型正在從文本、語音、視覺等單一模态大模型,向着多種模 态融合的通用人工智能方向發展。

人工智能行業專題報告:AI大模型賦能人形機器人

2.2. AI 大模型讓人形機器人具備通用任務解決能力

AI 大模型将會從語音、視覺、決策、控制等多方面實作同人形機器人的結合,形成 感覺、決策、控制閉環,大大提升機器人的“智慧”程度:語音:ChatGPT 作為一種預訓練語言模型,可以被應用于機器人與人類之間的自然 語言互動。例如,機器人可以通過 ChatGPT 來了解人類的自然語言指令,并根據 指令進行相應的動作。自然語言是人類最通用的互動媒介,語音作為自然語言的載 體将會是機器人拟人化的關鍵任務。盡管深度學習的出現已經将以語音識别技術、 自然語言處理、語音生成技術為構成子產品的語音互動技術推向相對成熟的階段,但 實際過程中仍然容易出現語義了解偏差(反諷等)、多輪對話能力不足、文字生硬的 情況。語言大模型為機器人的自主語音互動難題提供了解決方案,在上下文了解、 多語種識别、多輪對話、情緒識别、模糊語義識别等通用語言任務上,ChatGPT 表 現出了不亞于人類的了解力和語言生成能力。在以 ChatGPT 為代表的大模型的加 持下,人形機器人對通用語言的了解和互動才能提上日程,這将會是通用 AI 賦能通 用服務機器人的開始。

視覺:視覺大模型賦能人形機器人識别更精确,場景更通用。計算機視覺的發展經 曆了基于以特征描述子代表的傳統視覺方法、以 CNN 卷積神經網絡為代表的深度 學習技術,目前通用的視覺大模型正處于研究探索階段。一方面,大參數量模型的 強拟合能力使得人形機器人在進行目辨別别、避障、三維重建、語義分割等任務時 具備更高的精确度;另一方面,通用大模型解決了過去以卷積神經網絡為代表的深 度學習技術過分依賴單一任務資料分布,場景泛化效果不佳的問題,通用視覺大模 型通過大量資料學到更多的通用知識,并遷移到下遊任務中,基于海量資料獲得的 預訓練模型具有較好的知識完備性,大大提升場景泛化效果。人形機器人的場景相 對工業機器人更通用、更複雜,視覺大模型的 All in One 的多任務訓練方案能使得 機器人更好地适應人類生活場景。

決策:通用語言、環境感覺能力是自動化決策的基礎,多模态大模型契合人形機器 人的決策需求。單一模态智能無法解決設計多模态資訊的決策問題,如“語音告知 機器人去取桌子上綠色蘋果”的任務。多模态統一模組化,目的是增強模型的跨模态 語義對齊能力,使模型逐漸标準化,使得機器人能綜合視覺、語音、文本多元度信 息,實作各感官融合決策的能力。基于多模态的預訓練大模型或将成為人工智能基 礎設施,增強機器人可完成任務的多樣性與通用性,讓其不隻局限于文本和圖像等 單個部分,而是多應用相容,拓展單一智能為融合智能,使機器人能結合其感覺到 的多模态資料實作自動化決策。

人工智能行業專題報告:AI大模型賦能人形機器人

控制:生成式 AI 賦能機器人自我控制,最終形成感覺、決策、控制閉環。使得人形 機器人具備通用能力,首先需要其具備“常識”,即通用的語言了解能力(語音)和 場景了解能力(視覺);其次需要其具備決策能力,即接收指令後産生的對任務的拆 解;最後,需要其具備自我控制和執行性能,生成式 AI 的代碼生成能力将最終使得 機器人的感覺、決策、動作形成閉環,達到自我控制的目的。事實上,近來微軟團 隊已經嘗試将 ChatGPT 應用于機器人控制的場景中,通過提前寫好機器人底層函 數庫,并對其描述功能作用及目标,ChatGPT 能生成完成任務的代碼。在生成式 AI 的推動下,機器人程式設計的門檻将會慢慢降低,最終實作自我程式設計、自我控制,并完 成人類習以為常的通用任務。

2.3. OpenAI 和微軟将大語言模型應用于機器人

OpenAI 領投挪威人形機器人公司 1X Technologies。2017 年 OpenAI 推出了用 于機器人的開源軟體 Roboschool,在機器人中部署了新的單樣本模仿學習算法, 通過人類在 VR 中向機器人示範如何執行任務。2018 年,OpenAI 釋出了 8 個模拟 機器人環節和事後經驗回訪基線實施,并用來訓練在實體機器人上工作的模型。22 年,Halodi Robotics 在挪威 Sunnaas 醫院測試了醫護助理機器人 EVE,讓其執行 後勤 工 作 。2023 年 3 月 28 日 ,OpenAI 領 投 挪威 人 形 機器 人 公 司 1X Technologies(前稱 Halodi Robotics)。Halodi Robotics 通過 Ansys 初創公司計 劃利用 Ansys 仿真軟體開發能在日常場景中與人安全協作的人形機器人。

微軟提出 ChatGPT for Robotics,利用 ChatGPT 解決機器人應用程式編寫問題。2023 年 4 月,微軟在其官網發表了一篇名為《機器人 ChatGPT:設計原則和模型能力(ChatGPT for Robotics: Design Principles and Model Abilities)》論文, 這項研究的目标是觀察 ChatGPT 是否可以超越文本思考,并對實體世界進行推理 來幫助完成機器人任務。人類目前仍然嚴重依賴手寫代碼來控制機器人,該團隊一 直在探索如何改變這一現實,使用 OpenAI 的新人工智能語言模型 ChatGPT 實作 自然的人機互動。

人類可以從機器人流程中的 in the loop 變為 on the loop。論文提出,不要求 LLM 輸出特定于機器人平台或者庫的代碼,隻是創造簡單的進階函數庫供 ChatGPT 調 用,并在後端講進階函數庫連結到各個平台,場景和工具的現有庫和 API。結果證 明,ChatGPT 的引入,使得人類通過自然語言等進階語言指令于語言模型互動,用 戶通過文本對話不斷将人類的感覺資訊輸入 ChatGPT,ChatGPT 解析觀察流并在 對話系統中輸出相關操作,不需要生成代碼。這樣,人類可以實作無縫部署各種平 台和任務,人類對 ChatGPT 輸出的品質和安全性進行評估。人類在機器人 pipeline 中的任務主要是:1)首先,定義一組進階機器人 API 或函數庫。該庫可以針對特定的機器人類型進 行設計,并且應該從機器人的控制棧或感覺庫映射到現有的低層次具體實作。為高 級 API 使用描述性名稱非常重要,這樣 ChatGPT 就可以推理它們的行為。2)為 ChatGPT 編寫一個文本提示,描述任務目标,同時明确說明進階庫中的哪 些函數可用。提示還可以包含有關任務限制的資訊,或者 ChatGPT 應該如何組織 它的答案,包括使用特定的程式設計語言,或使用輔助解析元件等。3)使用者通過直接檢查或使用模拟器來評估 ChatGPT 的代碼輸出。如果需要,用 戶使用自然語言向 ChatGPT 提供有關答案品質和安全性的回報。4)當使用者對解決方案感到滿意時,就可以将最終的代碼部署到機器人上。

人工智能行業專題報告:AI大模型賦能人形機器人

ChatGPT 可以以 zero-shot 的方式解決簡單的機器人任務。對于簡單的機器人任 務,使用者隻需要提供文本提示和函數庫描述,不需要提供具體的代碼執行個體,ChatGPT 就可以 zero-shot 解決時空推理(ChatGPT 控制一個平面機器人,用視覺伺服捕捉 籃球位置)、控制真實無人機完成物體尋找、操縱虛拟無人機實作工業檢測等問題。

在人類使用者 on the loop 互動下,ChatGPT 可以完成更複雜的機器人控制任務。1)課程學習:教授 ChatGPT 簡單的拾取和放置物體的技能,并将所學會的技能按 照邏輯組合用于更複雜的區塊排列任務;2)Airsim 避障:ChatGPT 建構了避障算 法的大部分關鍵子產品,但需要人工回報無人機朝向等資訊。人工回報進階的自然語 言,ChatGPT 能夠了解并在适當的位置進行代碼修正。

ChatGPT 的對話系統能夠解析觀察并輸出相關操作。1)帶 API 的閉環對象導航:為 ChatGPT 提供了對計算機視覺模型的通路,作為其函數庫的一部分。ChatGPT 在其“代碼“輸出中建構感覺-動作循環,實作估計相對物體角度、探索未知環境、 并導航到使用者指定對象的功能;2)使用 ChatGPT 的對話進系統進行閉環視覺語言 導航。在模拟場景下,人類使用者将新的狀态觀測值作為對話文本輸入,ChatGPT 的 輸出僅傳回向前的運動距離和轉彎角度,實作了用“對話系統”指導機器人一步步 導航到感興趣區域。

3. 人形,讓機器人的運動執行更加通用

執行能力(機器人的四肢):行動能力(腿)+精細操作(手)。把機器人做成人形, 是為了讓機器人的執行能力更加通用。機器人執行任務時所處的環境是按照人類的 體型建造起來的:建築、道路、設施、工具等,這個世界是為了友善人類這種人形 生物才這樣設計。如果出現了某種新形态的機器人,人們就必須重新設計一套機器 人适應的全新環境。設計在某個特定範圍内執行任務的機器人相對容易,如果想要 提高機器人的通用性,就必須選擇可以作為分身的人形機器人。本章選擇兩個代表 性産品波士頓動力 Altas 和特斯拉 Optimus,從驅動、環境感覺、運動控制三方面 對比方案差異,探尋人形機器人運動控制方案商業化的趨勢。

波士頓動力 Altas 定位于技術的前瞻性研究,側重探索技術應用的可能性而非商業 化。從硬體架構來看, Altas 具備出色的動态性能、瞬時功率密度和穩定的運動姿 态,可以實作高負載、高複雜度的運動, 像是一場技術驅動的盛宴。商業化并非波士 頓動力目前主要考量因素,Altas 項目更多作為一個研究平台供研究者進行學術試 驗,側重探索技術應用的可能性而非商業化。特斯拉 Optimus 發心于人形機器人的規模化、商業化、标準化,商業化的目标驅 動下,成本、能耗成為特斯拉團隊的考量名額。

人工智能行業專題報告:AI大模型賦能人形機器人

3.1. 驅動:液壓驅動 VS 電動驅動

3.1.1. 電驅成本低、易于維護、控制精度高,商業化潛力高

主流人形機器人的驅動方案包括液壓驅動和電氣驅動(伺服電機+減速器)兩種。相 比電氣驅動,液壓驅動輸出力矩大、功率密度高和過載能力強,因而能滿足波士頓 動力 Atlas 高負載動作和快速運動的需求;但液壓驅動的方式能耗大、成本高,同 時容易出現漏液等問題、可維護性差。一方面,商用場景下高負載動作(如跑酷、 後空翻等)屬于非必要行為,另一方面,随着電驅系統功率密度和響應速度的不斷 提升,我們認為結合電驅成本低、易于維護且技術應用成熟的優勢,基于電驅的人 形機器人商業化可能性更高。

3.1.2. 波士頓動力 Atlas:采用“液壓驅動”方案

波士頓動力全身共 28 個液壓執行器,可執行高負載複雜動作。HPU(Hydraulic Power Unit)作為 Atlas 的液壓動力源具備極小尺寸的高能量密度(~5kW/5Kg), 電液經由流體管線連接配接至各液壓泵,可實作快速響應和精确力控,其高瞬時功率密 度的液壓驅動器能支援機器人實作奔跑、跳躍、後空翻等複雜動作,機器人的結構 強度得益于其高內建度的結構總成。根據官方披露影像及專利細節,我們推測:踝、 膝、肘關節由液壓缸驅動;髋、肩、腕關節及腰腹由擺動液壓缸驅動。

3.1.3. 特斯拉 Optimus:采用“電動驅動”方案

單台 Optimus 全身 40 個執行器,是單台多關節機器人的 6~7 倍。其中:身體關 節部分采用減速器/絲杆+伺服電機的傳動方式,共計 28 個執行器;機械手基于欠 驅動方案,采用電機+腱繩驅動(tendon-driven)的傳動結構,單手 6 個電機,11 個自由度。

人工智能行業專題報告:AI大模型賦能人形機器人

根據 Testla AI Day,特斯拉自主研發的六種執行器中,旋轉關節方案繼承工業機器 人,線性執行器和微型伺服電機是人形機器人新需求,具體看:

旋轉關節方案(肩、髋、腰腹):伺服電機+減速器,我們推測,單台人形機器人将 搭載 6 台 RV 減速器(髋、腰腹)和 8 台諧波減速器(肩、腕)。根據特斯拉 Optimus 執行器方案,RV 減速器體積大、負載能力強、剛度高,适用于髋、腰腹大負載關節, 其中髋關節 2*2 台、腰腹兩個自由度 2 台,共計 6 台;諧波減速器體積小、傳動比 高、精密度高,适用于肩、腕關節,其中肩關節 3*2 台、腕關節 1*2 台,共計 8 台。随着更多廠商的湧入,其執行器方案可能存在差異,若線性執行器被旋轉執行器替 代,單台機器人減速器數量将有所提升。

擺動角度不大的關節(膝、肘、踝、腕):線形執行器(伺服電機+絲杠)。一體化伺 服電動缸(伺服電機+絲杠)方案具備自鎖能力,能耗比純旋轉關節方案低。線性執行器空間使用率高、能提供較大的推動力。我們猜測,線性執行器基于力矩電機結 合行星滾柱絲杠的方案将應用于線性執行器關節(髋、膝、踝、肘、腕)中,預計 合計将使用 14 個線性執行器。

行星滾柱絲杠以其高承載、高剛度、長壽命的特點或成為人形機器人線性執行器的 關鍵傳動裝置,通過适配人形機器人需求實作降本是大規模放量的前提。根據 Tesla AI Day 2022 會上展示的資訊來看,Optimus 線性執行器采用的方案即為行星滾柱 絲杠一體式伺服電動缸。我們認為下肢髋、膝、踝關節及上肢的肘關節的伺服電缸 采用高承載、高剛度的行星滾柱絲杠作為傳動裝置可能性比較大。行星滾柱絲杠結 構複雜、加工難度大因而成本很高,通過調整設計、工藝方案适配人形機器人的需 要來實作降本是其大規模應用的前提。

人工智能行業專題報告:AI大模型賦能人形機器人

機械手:Optimus 單手包括 6 個執行器,可實作 11 個自由度,由微型電機驅動, “欠驅動”方案成本效益高,“繩驅“傳動結構不确定性較大。“欠驅動”,系統執行器 的數目小于其自由度數目,因為機械手本身高自由度數目的特性,出于提高系統設 計的內建性、緊湊性和降低成本、更出于簡化後續運動控制的考慮,設計者們會減 少所使用電機的數目(即執行器的數目),形成了執行器的數目小于其自由度數目的 欠驅動方案。通過通過機械結構的優化實作以較少的執行機構驅動更多的自由度, 節省成本,是目前商業産品及高校機械手研發的主流選擇。

機械手驅動方案差異較大,電機的輕量化、低成本是關鍵。機械傳動結構上,機械 手的主流方案包括繩驅(Tendon Driven)、連杆、齒輪齒條、材料形變等。各機械 手驅動方案差異很大:Ritsumeikan Hand Ritsumeikan Hand 通過耦合走線實作 了 2 個驅動器對 15 個關節的驅動;Stanford/JPL 靈巧手單手 16 個電機;Shadow Hand 單手 30 個電機,合計 24 個自由度。人形機器人機械手需要滿足品質輕、結 構緊湊和抓取力強的要求,是以電機應具有尺寸小、品質輕、精度高、扭矩大的特 點。空心杯電機結構緊湊、能量密度高、能耗低,和人形機器人機械手需求契合度 高。

特斯拉 Optimus 機械手采取電機+腱繩驅動的方式,可能對手部傳動方案進行優 化。盡管繩驅給機械手帶來了極大的靈活性,且可以極大簡化設計難度和系統的複 雜性,但其可靠性、傳動效率都低于傳統連杆、齒輪齒條等方式,可能是研發團隊 短期開發的權宜之計。

3.2. 環境感覺:深度相機+雷射雷達 VS 純視覺方案

用于實作機器人自主移動的感覺和定位技術原理主要包括視覺、雷射、超音波、GPS、 IMU 等,對應機器人感覺系統的不同傳感器類别。SLAM(即時定位與地圖建構) 是發展比較成熟、應用廣泛的定位技術,它是機器人通過對各種傳感器資料進行采 集和計算,生成對其自身位置姿态的定位和場景地圖資訊的系統。SLAM 問題可以 描述為:機器人在未知環境中從一個未知位置開始移動,在移動過程中根據位置估 計和傳感器資料進行自身定位,同時建造增量式地圖。擷取定位和地圖後,再根據 路徑規劃算法(全局、局部、避障)實作自主移動。

人工智能行業專題報告:AI大模型賦能人形機器人

3.2.1. 波士頓動力 Atlas:深度相機+雷射雷達

波士頓動力 Atlas 感覺方案融合深度相機和雷射雷達,基于多平面分割算法實作步 态規劃。Atlas 機器人感覺視覺技術發展相對成熟,它借鑒 Google Transformer 模 型,搭建 HydraNet 神經網絡模型,優化視覺算法,完成了自動駕駛純視覺系統的 遷移;Atlas 使用 ToF 深度相機以每秒 15 幀的頻率生成點雲,基于多平面分割算 法從點雲中提取環境表面,資料經過映射後完成對周邊物體的識别。之後,工控機 基于識别到的表面和物體資訊進行步态規劃,以實作避障、探測地面狀況以和巡航 等任務。IHMC 全稱為“人類與機器認知研究所”,是一家專注于研發機器人控制算 法的頂尖機構,主要研發人形機器人行走所需的關鍵算法,而指揮 Atlas 機器人站 立、行走等算法就來自于 IHMC。

3.2.2. 特斯拉 Optimus:純視覺方案,成本更低

特斯拉 Optimus 環境感覺采用基于攝像頭的純視覺方案,移植特斯拉全自動駕駛 系統,成本更低。Optimus 頭部搭載三枚攝像頭(魚眼攝像頭+左右攝像頭),通過 全景分割+自研的三維重建算法(Occupancy Network)實作環境感覺,純視覺方 案相比雷射雷達等感覺裝置成本更低,但對算力要求高。機器人繼承了 Autopilot 算法架構,通過重新采集資料訓練适用于機器人的神經網絡,以實作環境的三維重建、路徑規劃、自主導航、動态互動等。特斯拉強大的全自動駕駛系統(FSD)的移 植,使機器人視覺方案在不增加硬體成本的前提下朝着更精确、更智能的方向進步。

3.3. 運動控制:尚未形成通用的控制器解決方案

運控算法是核心競争力,各家人形機器人控制算法均為自研。人形機器人對運動控 制能力及感覺計算能力要求較高,且不同廠商的執行器數量和類别差異較大,未來 運控算法或成為廠商核心競争力,且自研可能性較大;此外人形機器人控制方案, 對于客戶應用場景的了解程度及工藝要求也是重要因素,目前下遊場景分散,單獨 一家廠商還很難将人形機器人做到各個場景的通用。

3.3.1. 運動控制算法:思路相似,均為離線行為庫和實時調整

波斯頓動力 Atlas:基于離線行為庫和模型預測控制(MPC)實作行為控制 離線行為庫基于軌迹優化算法(質心運動學優化+運動學優化)和動作捕捉(Motion Capture)建立,技術人員可通過向庫中添加新軌迹為機器人添加新功能;機器人被 指定行為目标後,從行為庫中選擇盡可能接近目标的行為,獲得理論上可行的動态連續動作。模型預測控制(MPC)根據傳感器回報的實時資訊,基于行為庫調整部 分參數(力、姿勢、關節動作時間等)的細節,以适應真實環境同理想的差異和其 他實時因素。MPC 這種線上控制方式允許機器人偏離模版行動,同時可以為兩個行 為(如跳躍和後空翻)間預測過渡動作,簡化了行為庫的建立過程。

人工智能行業專題報告:AI大模型賦能人形機器人

特斯拉 Optimus:步态規劃算法思路和 Altas 類似,運動規劃器生成參考軌迹,控 制器根據傳感器資訊實時調整優化行為,控制算法尚不成熟 步态控制算法中,運動規劃器首先基于預期路徑,生成參考軌迹,确定機器人模型 的動力學參數。控制器基于傳感器資料對機器人進行姿态估計,根據現實環境和理 想模型的差異,對機器人行為參數進行校正,得到真實行為。此外,在連續的步态 間,算法結合了人類行走時的腳步狀态(腳掌初始着地->腳趾最後離地),結合上半 身的協調擺臂運動,實作自然擺臂、大跨步以及盡可能的直膝行走,提高行走效率 與姿态。目前機器人的步态控制方案還不夠成熟,抗幹擾能力較弱,動态穩定性差, 特斯拉技術人員表示 Optimus 的平衡問題可能需要 18~36 個月解決。

類似的,Optimus 上肢操作借助基于動捕和逆運動學映射構成的離線行為庫,通過 實時軌迹優化實作自适應操作。

3.3.2. 運動控制器:多為自主設計,不同廠商需求差異大

人形機器人采集并處理多種模态資料,執行機構複雜程度遠高于工業機器人,對控 制器實時算力、內建度要求高。人形機器人傳感器類型、數量遠超工業機器人,行 動過程中需同時完成 3D 地圖建構、路徑規劃、多傳感器資料采集、采集運算并實 現閉環控制等等,流程相對繁雜,資料次元、資料量均高于工業機器人,對算力要 求高。工業機器人一般通過外接的圖像采集卡和圖像處理軟體實作識别和檢測;移 動場景下的人形機器人要求圖像處理器內建于控制器晶片中,對晶片內建度有要求。人形機器人控制器多為自主設計,不同廠商需求差異大。目前人形機器人下遊場景 的不确定性較強,不同廠商研發的機器人驅動方案(如驅動方式、電機方案)、感覺 方案(純視覺、多傳感器融合等)、控制算法差異較大,機器人對控制器的算力、存 儲等有不同的需求,是以控制器的組成有差異,以自主設計為主。我們認為人形機 器人控制器采用分布式控制系統的方案可能性較大,即由一個核心控制器和多個小 型控制器構成,其中小型控制器用于驅動各個身體區域的關節。

波士頓動力 Atlas:機器人本體搭載 3 台工控機負責運控系統的計算 。控制器接收來自雷射雷達、ToF 深度相機的資料,生成地圖和路徑後基于離線行為 庫中規劃目标行為;實際運動過程中通過采集 IMU、關節位置、力、油壓、溫度等 傳感器資料,針對動作序列進行實時調整和優化。

特斯拉 Optimus:複用特斯拉汽車的感覺和計算能力,在全自動駕駛 FSD 晶片基 礎上開發适合人形機器人的控制器系統 。FSD 晶片內建了中央處理器、神經網絡處理器(NPU)、圖像處理器(GPU)、同步 動态随機存儲器(SDRAM)、信号處理器(ISP)、視訊編碼器(H.265)和安全模 塊,能高效率地實作圖像處理、環境感覺、通用計算和實時行為控制。為了比對人 形機器人和汽車的需求差異,Optimus 控制器晶片在 FSD 晶片基礎上做了适應性 修改,增加了對視、聽、觸覺等資料采集實作多模态資訊輸入支援,植入語音互動 和無線連接配接子產品支援人機溝通,具備硬體保護功能以保障機器人和周邊人員安全, 進而實作行為決策和運動控制。

人工智能行業專題報告:AI大模型賦能人形機器人

繼續閱讀