具身智能産業：技術模型分析、市場展望、相關産業及公司深度梳理

特斯拉2023年股東會上，馬斯克表示，人形機器人将是今後特斯拉主要的長期價值來源，“如果人形機器人和人的比例是2比1左右，那麼人們對機器人的需求量可能是100億乃至200億個，遠超電動車的數量”。英偉達創始人黃仁勳在ITF World 2023半導體大會上也表示，AI下一個浪潮将是“具身智能”。

“具身智能”意指有身體并支援實體互動的智能體，人形機器人為标杆産品。具身智能，首先需要聽懂人類語言，分解任務、規劃子任務，移動中識别物體，與環境互動，最終完成任務。人形機器人很好的契合了具身智能的要求，有望成為标杆應用。

圍繞具身智能，我們從下面幾方面展開讨論：具身智能的概念是如何定義的，具體方案子產品是如何設定的，發展曆程又是怎樣的，相關技術及模型有哪些，可能受益的相關公司都有哪些。希望通過這些問題的探讨，讓我們對于具身智能有個淺顯的了解。

（更多投研内容可關注公衆号《投研鋒向》加入社群，體驗更多0預期差紀要資訊）

具身智能概述

1.概念

具身智能（Embodied Intelligence）是指一種具備自主決策和行動能力的機器智能，它可以像人類一樣感覺和了解環境，通過自主學習和适應性行為來完成任務。要實作具身智能與環境實時互動并完成自主做事的功能，其所涉及到的主要環節可以抽象了解為包括感覺、傳輸、決策、執行。

感覺層類似人的五官，負責收集環境資訊，在單一場景下機器或許可以通過感覺來繞過決策控制，比如1986年，美國著名機器人制造專家羅德尼•布魯克斯（Rodney Brooks）研發了第一個基于感覺行為模式的輪式機器人，不需要中樞控制可以實作避讓、前進和平衡等功能，但是如果想要讓機器實作與人類互動并完成多樣化指令要求，它面對的可能是結合了語言、圖像等多個模态的複雜資訊，決策層的多模态處理就顯得不可或缺。

決策層作為核心處理樞紐，需要類似人類大腦的處理能力，滿足機器在了解指令、分解任務、規劃子任務、識别物體完成人機互動和環境互動等方面的需求，多元度的人機互動在傳統的機器人領域是一大難題，因而當下的研究更多展現在特定指令下對于環境互動的探索，也即如何更智能地執行特定實體任務上。而ChatGPT等AI大模型的快速突破提供了新的思路，有望充當機器人的大腦與人類進行多元度互動，進而更為出色完成任務。

此外，随着感覺和決策的複雜化，傳輸層對于的實時性的要求日益提升，進而對傳輸速率和邊緣計算等提出更高的需求。

2.PIE方案是實作具象智能的解決方案之一

PIE方案是實作具象智能的解決方案之一，可分為三個子產品——具身感覺（Perception）、具身想象（Imagination）和具身執行（Execution）。

具象感覺（Perception）：互動感覺，自動挖掘、定義具象概念。可以通過兩種方式實作：1）全感覺：建構一個大規模的資料庫，包含我們所操作的這個世界模型（world model）的各種各樣的知識，跟操作相關的知識，包括外形、結構、語義，以及48個真實世界關節體類别等；2）具身互動感覺：各種内容互動的感覺帶來的全新感覺，通過牛頓定律和資料驅動的結合，不斷修正誤差進而得到正确的模型。

具象想象（Imagination）：自動具身任務模拟，仿真引擎建構。通過名為RFUniverse的仿真引擎，這個仿真引擎支援7種物體（比如關節可移動的、柔性的、透明的、流體的……）、87種原子操作的仿真。當研究人員把物體輸入，模型會在仿真引擎中進行想象操作。

具身執行（Execution）：多傳感器合作，自意識執行誤差。研究人員通過建構一個元操作庫，調用各種元操作來解決執行的問題。通過半自動的data collection and labeling，能夠非常快速地産生20億個抓取點位，再進行訓練，把「grasp」這個問題分解為where（去哪裡抓）和how（怎麼去抓）的貝葉斯問題，分别估測網絡。

具身智能發展曆程

1.“具身智能”的機器人是人工智能的終極形态

1950年，圖靈在他的論文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能（Embodied AI）指的是，有身體并支援實體互動的智能體，如智能服務機器人、自動駕駛汽車等，具身智能機器人指的是，像人一樣能夠與環境互動感覺、自助規劃、決策、行動、執行任務的機器人。它包含人工智能領域幾乎所有的技術，包括機器視覺、自然語言了解、認知和推理、機器人學、博弈倫理、機器學習等，橫跨多個學科方向，是人工智能的集大成者。

2.現有機器人難以适應現實世界，是因為其學習模式為“旁觀型學習方式”

目前大部分深度學習模型訓練使用的資料來自于網際網路（InternatAI）而非現實世界第一人稱視角，隻能學習到資料中心的固定模式，但無法在真實世界中直接學習，是以也無法适應真實世界。現實當中的人類是通過對現實世界的觀察、互動、回報等學習，大腦中的部分認知依賴實體身體與世界持續不斷的互動，是以學習到越來越多的技能來适應環境。

3.具身智能是通往通用人工智能的關鍵鑰匙，賦予機器人實踐學習的能力

斯坦福大學的李飛飛教授稱“具身的含義不是身體本身，而是與環境互動以及在環境中做事的整體需求和功能。”上海交通大學的盧策吾教授通過貓學習走路來做出形象比喻：“如圖中的貓一樣，主動貓是具身的智能，它可以在環境中自由行動，進而學習行走的能力。被動貓隻能被動的觀察世界，最終失去了行走能力。”實踐性學習方法與旁觀型學方法的不同點在于，實踐性學習是機器人像人一樣，通過實體身體與環境的互動來學習，可以主動感覺或者執行任務的方法來感覺世界，對世界進行模組化，增強對世界的認知和鍛煉行動能力。

4.具身智能更側重“互動”

上世紀以來，具身智能的研究已廣泛拓展到教育、材料、能源等領域,成為未來新一代人工智能理論與應用突破的一個重要視窗。麻省理工學院成立了名為“具身智能”的研究團隊進行相關領域的研究。

清華大學劉華平教授等人在《基于形态的具身智能研究:曆史回顧與前沿進展》中總結了海内外多方面研究後提出，具身智能（Embodied intelligence）相對于離身智能（Disembodied intelligence）更側重關注“互動”,即智能受腦、身體與環境協同影響,并由身體與環境互相作用中,通過資訊感覺與實體操作過程連續、動态地産生。具身智能未來可望獲得突破的發展方向包括形态湧現、感覺進化、實體實作、多體協同等，劉教授等人也強調，盡管具身智能很重要，其有着自身的局限性，與離身智能的緊密結合才是實作通用智能的必由之路。

5.近期英偉達創始人CEO黃仁勳強調“具身智能”的重大價值

黃仁勳在ITFWorld2023半導體大會上表示，人工智能的下一個浪潮是具身智能（Embodied AI），即能了解、推理、并與實體世界互動的智能系統，比如機器人、自動駕駛汽車，甚至聊天機器人，他們都能很好的了解實體世界。同時，黃仁勳公布NividiaVIMA，一個多模态具身視覺語言模型。據介紹，VIMA可以通過視覺執行任務，也可以通過文本提示來做任務，比如重新排列這些方塊以與場景比對；它能明白概念，采取适當行動，他可以在示範中學習，并且将行為控制在合理範疇内。

6.具身智能的現實應用存在諸多難點，涉及到多學科知識

拆解具身智能的應用過程：當人要求機器人完成某一項任務，機器人要經過的步驟包括：能夠聽懂人類語言分解任務規劃子任務移動中識别物體與環境互動最終完成相應任務。這個過程涉及到自然語言了解、邏輯推理、機器視覺、運動控制、機器學習、運動規劃、機械控制等。是以，要實作完全的具身智能，依然有很長的一段路要走。

具身智能相關技術及模型

具身智能已成為全球學術和企業的重要的研究方向。今年的IROS（機器人領域頂級學術會議）将具身智能作為重要主題。目前谷歌、微軟等技術團隊、衆多頂尖研究院所和高校已探索具身智能的發展落地。谷歌、微軟、UCBerkeley等走在技術前沿。

1.谷歌：視覺語言大模型PaLM-E

2023年3月6日，來自谷歌和德國柏林工業大學的一組人工智能研究人員公布了史上最大視覺語言模型PaLM-E（Pathways Language Model with Embodied）。PaLM包括了540B語言模型與22B視覺ViT（Vison Transformer）模型，最終參數量達562B。PaLM-E本身是個多模态的大模型，不僅能了解文本，還能了解圖檔（ViT），可以了解圖檔中的語義資訊。ViT将大模型能力泛化至CV領域，賦予大模型視覺能力。兩相結合，PaLM-E模型具備多模态能力，能夠觀察實體實體世界的資訊，由大模型進行分析了解，再将決策結果回報至實體世界，由此溝通實體和虛拟兩個世界。

亮點在于多模态大模型應用于人機互動領域。1）發現參數擴大有助于提升人機互動中的語言能力：語言模型越大，在視覺語言與機器人任務的訓練中，保持的語言能力就越強，5620億參數的PaLM-E幾乎保持了它所有的語言能力。2）對于機器人的長跨度、長周期任務，以往通常需要人工協助，PaLM-E通過自主學習全部完成，如下圖左。3）展示了模型的泛化能力，研究人員要求機器人将“綠色色塊推到烏龜旁邊”的指令，即便機器人之前沒有見過這隻烏龜擺件，也能完成任務。

同時PaLM-E通過分析來自機器人攝像頭的資料來實作對進階指令的執行，而無需對場景進行預處理。這消除了人類對資料進行預處理或注釋的需要，并允許更自主的機器人控制。

2.Meta：SAM分割模型

2023年4月6日，Meta推出一個AI模型Segment Anything Model（SAM，分割一切模型），能夠根據文本指令等方式實作圖像分割。SAM任務目的：零樣本（zero-shot）或者簡單prompt下，就對任意圖檔進行精細分割。

SAM證明，多種多樣的分割任務是可以被一個通用大模型涵蓋的。SAM做到的分割一切并不是CV大模型的終點，我們期待一個模型可以無監督完成分割、檢測、識别、跟蹤等所有CV任務，屆時視覺大模型應用會得到極大發展。

3.微軟:ChatGPT for Robotics

在Microsoft Research的ChatGPT for Robotics文章中，研究者使用ChatGPT生成機器人的高層控制代碼，進而可以通過自然語言和ChatGPT交流，使用ChatGPT來控制機械臂、無人機、移動機器人等機器人。

目前的機器人的應用基礎是代碼，工程師需要經常編寫代碼和規範來控制機器人的行為，這個過程緩慢、昂貴且低效，使用場景有限。ChatGPT帶來一種新的機器人應用範例，通過大型語言模型(LLM)将人的語言快速轉換為代碼。在這種情境下，人們不需要學習複雜的程式設計語言或機器人系統的詳細資訊，就可以控制機器人來完成各種任務，更輕松的與機器人互動。目前實驗已經能夠通過給ChatGPT的對話框輸入指令，讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色标志的東西”(可樂)，以及一面供無人機自拍的鏡子。

4.伯克利的LM-Nav模型

UCBerkeley、波蘭華沙大學聯合谷歌機器人團隊發表論文《LM-Nav：具有大型預訓練語言、視覺和動作模型的機器人導航系統》，該模型結合了三種預訓練模型，進而無需使用者注釋即可執行自然語言指令。其中，大語言模型（LLM）用于完成自然語言處理的任務；視覺和語言模型（VLM）将圖像和文本資訊進行關聯，即使用者指令和機器人視覺感覺的外部環境進行關聯；視覺導航模型（VNM）用于從其觀察到的資訊中直接進行導航，将圖像和将要執行的任務按時間進行關聯。

5.國内現狀

國内政策也在加碼推進具身智能領域的發展，5月12日，北京市釋出《北京市促進通用人工智能創新發展的若幹措施（2023-2025年）（征求意見稿）》，其中便提出探索具身智能、通用智能體和類腦智能等通用人工智能新路徑，包括推動具身智能系統研究及應用，突破機器人在開放環境、泛化場景、連續任務等複雜條件下的感覺、認知、決策技術。

具身智能有望打開AI新空間，引領人工智能下一站浪潮，建議關注包括數字基礎設施及機器人制造等相關環節投資機會。

國内服務機器人企業加速領跑，開放化的行業生态日漸形成。目前，國産機器人的性能和可靠性大幅提升，國内企業圍繞國内外特色市場需求，在手術醫療、消費服務等多個賽道推出了獨具特點、功能新穎的特色産品，部分産品性能水準已突破“并跑”，實作與國際領先水準“領跑”。

相關産業梳理

1.具身智能+機器人将有望成為AI的重要解決方案，傳感器、執行器與計劃控制是三大基本要素

傳感器包括本體感受傳感器、觸覺+視覺+聲音傳感器、機器視覺等；執行器包括減速器、伺服系統、微電機等；計劃控制部分包括控制器、工控系統、AI系統等。傳感器與執行器數量較多。具身智能核心技術壁壘和價值環節主要聚焦核心零部件：減速器、伺服系統和控制器，其中減速器在機器人中成本占比最高達30%，其次是伺服系統（20%）和控制器（10%）。

2.未來Optimus的數量可能将達到100億以上

2023年5月17日，特斯拉召開2023年股東大會，展示了一直備受關注的人形機器人Optimus進化情況，在機械關節控制方面，特斯拉機器人電機扭矩控制，力度控制更加精确靈敏；在感覺方面，該機器人環境感覺和記憶能力提升不僅可以看路，亦會記路；在學習方面，Optimus可根據人類動作範例，進行端到端動作操控。特斯拉創始人兼首席執行官馬斯克表示：未來Optimus的數量可能将達到100億以上。

3.算力硬體層——具身智能的底層土壤

算力硬體層是構成AI産業的核心底座，主要包括AI晶片、AI伺服器等。

AI晶片需求有望率先擴張。AI晶片是用于加速人工智能訓練和推理任務的專用硬體，主要包括GPU、FPGA、ASIC等，具有高度并行性和能夠實作低功耗高效計算的特點。

随着AI應用的普及和算力需求的不斷擴大，AI晶片需求有望率先擴張。根據IDC預測，中國AI算力規模将保持高速增長，預計到2026年将達1271.4EFLOPS，CAGRA（2022-2026年）達52.3%。在此背景下，IDC預測異構計算将成為主流趨勢，未來18個月全球人工智能伺服器GPU、ASIC和FPGA的搭載率均會上升，2025年人工智能晶片市場規模将達726億美元。

4.機器視覺——具身智能的“眼睛”

若要實作具身智能與外界的互動感覺，機器視覺也是必不可少的一環。機器視覺是在機器人和自動化裝置中代替人眼實作高精度檢測、識别、測量和定位引導等功能，助力企業建構數字化工廠中的房間、打造智能工廠。

從機器視覺産業鍊角度來看，機器視覺行業産業鍊環節較長，上遊由機器視覺系統硬體和軟體算法構成，中遊為裝置商和系統內建商主要負責軟體的二次開發和裝置制造，下遊應用場景和行業廣泛。工業是目前中國機器視覺行業最大的下遊應用領域，工業領域的銷售額占比為81.2%。具身智能有望成為下一個快速發展的下遊應用。

機器視覺行業随工業自動化技術的演進逐漸更新規模化應用，全球市場來看，GGII預計至2025年市場規模超1200億元。

國内視覺龍頭有望充分受益于具身智能發展。國内兩大機器視覺龍頭均深度布局。根據中國機器視覺産業聯盟(CMVU)調查統計，現在已進入中國的國際機器視覺品牌已近200多家(如康耐視、達爾薩、堡盟等為代表的核心部件制造商，以基恩士、歐姆龍、松下、邦納、NI等為代表的則同時涉足機器視覺核心部件和系統內建)，中國自有的機器視覺品牌也已有100多家(如海康、華睿、盟拓光電、神州視覺、深圳燦銳、上海方誠、上海波創電氣等)，機器視覺各類産品代理商超過300家(如深圳鴻富視覺、微視新紀元、三寶興業、淩雲光、陽光視覺等)。

從視覺業務規模的角度看，2021年，各大廠商均有較為亮眼的業務增速，尤其國産廠商，海康機器人機器視覺業務2021年實作超過100%的增長，國内業務規模超過基恩士、康耐視，位居第一，其他國産廠商如奧普特、華睿科技亦有較高的增速。

具身智能相關公司

具身智能的出現會持續引領“大模型+機器人”潮流，機器人産業鍊及布局具身智能多模态大模型的廠商有望深度受益：機器人産業鍊：三花智控、綠的諧波、鳴志電器、禾川科技等；機器視覺：虹軟科技、海康威視、大華股份等；大模型：中科創達、商湯科技、雲從科技、科大訊飛等。

1.機器人産業鍊

（1）三花智控

機器人方面，公司重點聚焦仿生機器人機電執行器業務，并已與多個客戶建立合作，具備先發優勢，公司将同步配合客戶量産目标，并積極籌劃機電執行器海外生産布局。2023年4月公司釋出公告，與蘇州綠的諧波傳動科技股份有限公司簽署戰略合作架構協定，雙方将在三花墨西哥工業園共同出資設立一家合資企業，合資公司主營業務為諧波減速器。

（2）綠的諧波

諧波減速器長期需求向好，公司先發優勢持續。諧波減速器長期需求向好。

①工業機器人領域需求有望持續增長，人工成本上升以及老齡化持續推動國内機器人對人工的替代，諧波減速器作為智能制造裝置的核心基礎零部件持續受益。

②非工業機器人應用領域不斷拓展，由于具有自身體積小、傳動比大等優點，加之公司創新底層數理模型，大幅提升産品剛性名額，為諧波減速器打開了大量新的應用場景，公司諧波減速器應用領域已經從工業機器人拓展至服務機器人、數控機床、醫療器械、半導體裝置、新能源裝置等多個領域。

2.機器視覺

（1）虹軟科技

公司是計算機視覺行業領先的算法服務提供商及解決方案提供商，是全球領先的計算機視覺人工智能企業。23Q1移動智能終端收入實作正增長，同時智能駕駛視覺解決方案不斷落地并持續取得前裝定點項目，有望培育新的增長點。

（2）海康威視

公司較早地對人工智能的技術趨勢作出反應，在技術上實作了更大規模和更深的網絡、更強的并行能力、更強的資料中心、更強的資料生成和資料标注的能力。在AI技術的發展過程中，公司的AI模型規模持續擴大，已形成了千卡并行的能力并訓練了百億級參數的模型。公司始終專注于AIOT，從客戶的場景需求出發解決問題。

3.大模型

（1）中科創達

中科創達釋出全新的人工智能基礎大模型系列和應用産品路線圖。其中，RUBIK基礎平台（RUBIKFOUNDATIONFAMILY）,全面覆寫了從邊緣端、語言大模型、多模态、機器人等大模型系列。RUBIK應用産品全家桶全面覆寫了包括汽車大模型、終端大模型、行業大模型、開發套件大模型等一系列大模型産品組合。

Rubik大模型接入Kanzi，賦能汽車HMI設計。公司基于Rubik大模型和Kanzi，推出HMI設計輔助工具Rubik Genius Canvas，該産品能夠為設計師提供從概念創作、3D元素設計、特效代碼生成以及場景搭建制作等方面的幫助，極大的提升了汽車座艙HMI的設計效率與品質。

Rubik或将對标GooglePaLM2，賦能邊緣AI應用。Rubik大模型将與公司現有的智能汽車和物聯網業務整合，并通過私有化部署和系統調優來滿足各行業需求。目前市場聚焦于雲端大模型AI以及上遊算力等環節，對于邊緣AI預期差較大，而中科創達先發優勢顯著。

（2）科大訊飛

深度參與網際網路産業格局重塑，攻關“訊飛星火大模型”築牢技術底座優勢。2022年12月，科大訊飛啟動了“1+N認知智能大模型技術及應用”專項攻關，其中“1”指的是通用認知智能大模型算法研發及高效訓練方案底座平台，“N”指的是将認知智能大模型技術應用在教育、醫療、人機互動、辦公、翻譯等多個行業領域。科大訊飛有信心在中文認知領域形成獨特優勢，同時在教育、醫療等多個行業領域形成業界領先的深度創新應用。公司在2023年5月6日舉辦了“訊飛星火認知大模型”成果釋出會，除了釋出“訊飛星火認知大模型”之外，還有星火認知大模型在公司現有産品上的商業應用成果：大模型+AI學習機：AI像老師一樣批改作文，像口語老師一樣實景對話；大模型+訊飛聽見：錄音一鍵成稿，一分鐘輸出流暢會議文案；大模型+智能辦公本：根據手寫要點自動生成會議紀要；大模型+智慧駕艙：車内跨業務，跨場景人車自由交流；大模型+數字員工：基于自然語言生成業務流程和RPA（RPA即機器人流程自動化），幫助企業員工完成大量重複性工作；大模型+開放平台：聯合各行業合作夥伴共建大模型生态，首批接入來自36個行業的3000餘家開發者。

“星火大模型”的三個重要時間點。2023年6月9日科大訊飛24周年慶時，“星火”會通過類搜尋插件突破開放式問答，即實時問答，多輪對話能力、數學能力也将更新。8月15日，“星火”的多模态能力、代碼能力會上升一個“大台階”，并将開放給客戶。10月24日，“星火”大模型将能夠在通用大模型能力上對标ChatGPT，“在中文上要超越ChatGPT，英文上達到相當的水準。”

具身智能發展展望

大模型與機器人成果顯著，具身智能的東風已至：

1.人形機器人——具身智能成長的重要土壤

TeslaBot功能進展迅速，商業化前景可期。2021年，在“特斯拉AI日”上，馬斯克釋出了特斯拉的通用機器人計劃，并用圖檔展示了人形機器人TeslaBot的大緻形态。但當時的TeslaBot隻是個概念。一年後在2022特斯拉AI日上，人形機器人擎天柱（Optimus）實體亮相。2023年5月中旬的特斯拉股東大會上，馬斯克又展示了TeslaBot的最新進展，現在TeslaBot已經可以流暢行走，并還能靈活抓取放下物體。馬斯克在會上表示“人形機器人将會是今後特斯拉主要的長期價值來源。如果人形機器人和人的比例是2比1，則人們對機器人的需求量可能是100億乃至200億個，遠超電動車數量”。

最近的TeslaBot功能突破來源于特斯拉改進的電機扭矩控制以及環境模組化等技術。特斯拉利用一些技術方法改進了人形機器人的動作和控制，包括電機扭矩控制、環境發現與記憶、基于人類示範訓練機器人。首先，研究團隊使用電機扭矩控制（motor torque control）操縱人形機器人腿部的運動，讓機器人落腳力度保持輕緩。對于一個機器人來說，觀察或感覺周圍環境是非常重要的，是以特斯拉為人形機器人添加了環境發現與記憶的能力。現在該人形機器人已經可以對周圍環境進行大緻模組化。特斯拉的人形機器人具備與人類相似的身體結構，特斯拉的研究團隊使用大量人類示範訓練了機器人，特别是在手部動作方面，旨在讓其具備與人類似的物體抓取能力。

具身智能帶來的AI價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感覺實體世界，用拟人化的思維路徑去學習，進而做出人類期待的行為回報，而不是被動的等待資料投喂。人形機器人提供了各種基于人類行為的學習和回報系統，為實作更複雜行為語義提供了疊代的基礎和試驗場，是以，人形機器人的逐漸完善也為具身智能的落地提供了方向。而面向工業等場景的具身智能應用并非一定要是人形機器人，是以具身智能背後的技術和方法論才是核心，也意味着具身智能所帶來的價值要遠遠高于人形機器人本身。換句話說，人形機器人是具身智能的重要應用場景，也将為具身智能的疊代優化提供方向和空間。

2.AIGC助力具身智能瓶頸突破，智能與泛化能力是關鍵

強化學習興起之後，具身智能受到了更廣泛的關注。之前随着AlphaGo的成功，學術界對于強化學習的興趣大增，随之很多人開始用RL來打通智能體的感覺-決策-執行，希望實作具身智能。訓練RL是一個不斷試錯的過程，是以從2017、18年開始，出現了很多仿真訓練平台，能把一個智能體以具身的形式放進去，然後通過與環境的互動中獲得reward，進而學習一個policy。但是因為仿真環境和現實環境總是有差距的（叫sim2realgap），習得的policy不一定能遷移到現實裡。目前能實作技能policy從仿真遷移到現實環境中的，主要還是像移動導航、單步驟的抓取或者操作這類較為單一的技能，而且很難泛化。

最近大語言模型的風頭又壓過了強化學習。最近業界希望通過大規模，用一個模型整合視覺、語言、機器人，也取得了一定效果。但是機器人的執行需要的是4D資料（三維環境和機器人運動的時序軌迹），它的資料量和豐富度都遠不如圖檔和文本，采內建本也高的多，是以疊代演化的難度相比于大模型高得多。

而多模态大模型為具身智能的技術瓶頸突破提供了重要驅動力。具身智能是人工智能、機器人等各技術分支融合發展的必然結果，因為計算機視覺為圖像的采集和處理打開了視窗，圖形學也為實體仿真提供了工具支撐，NLP也為人類-機器互動提供了便捷性，也為機器從文本中學習知識提供了有效途徑，認知科學也為具身智能的行為認知原理提供了科學研究途徑。各類機器人構件也為智能體與實體環境互動提供了橋梁。是以，人工智能的技術分支以及機器人功能性的提升，為具身智能的進一步發展帶來了可能，而目前AIGC時代的大模型可以将之前的技術分支更優地內建和創新，已有不少研究者嘗試将多模态的大語言模型作為人類與機器人溝通的橋梁，即通過将圖像、文字、具身資料聯合訓練，并引入多模态輸入，增強模型對現實中對象的了解，進而更高效地幫助機器人處理具身推理任務，一定程度提升了具身智能的泛化水準。是以，GPT等AI大模型為具身智能的自我感覺和任務處理的優化更新提供了新的研究手段。

3.巨頭紛紛布局，産業融合加速推進

“算力霸主”英偉達高調布局具身智能。在ITFWorld2023半導體大會上，黃仁勳表示人工智能的下一個浪潮将是具身智能，即能了解、推理、并與實體世界互動的智能系統。同時，他也介紹了英偉達的多模态具身智能系統NvidiaVIMA，其能在視覺文本提示的指導下，執行複雜任務、擷取概念、了解邊界、甚至模拟實體學，這也标志着AI能力的一大顯著進步。

融合傳感器模态與語言模型，谷歌推出的視覺語言模型相較于ChatGPT新增了視覺功能。2023年3月，谷歌和柏林工業大學AI研究團隊推出了當時最大視覺語言模型——PaLM-E多模态視覺語言模型（VLM），該模型具有5620億個參數，內建了可控制機器人的視覺和語言能力，将真實世界的連續傳感器模态直接納入語言模型，進而建立單詞和感覺之間的聯系，且該模型能夠執行各種任務且無需重新訓練，其相較于ChatGPT新增了視覺功能。PaLM-E的主要架構思想是将連續的、具體化的觀察（如圖像、狀态估計或其他傳感器模态）注入預先訓練的語言模型的語言嵌入空間，是以實作了以類似于語言标記的方式将連續資訊注入到語言模型中。

谷歌實作視覺語言與機器人高水準實時互聯，且觀察到了類似多模态思維鍊推理與多圖像推理等湧現能力的出現。基于語言模型，PaLM-E會進行連續觀察，例如接收圖像或傳感器資料，并将其編碼為一系列與語言令牌大小相同的向量。是以，模型就能繼續以處理語言的方式“了解”感官資訊。而且，同一套PaLM-E模型能夠達到實時控制機器人的水準。PaLM-E還展現出随機應變的能力，例如盡管隻接受過單圖像提示訓練，仍可實作多模态思維鍊推理（允許模型對包含語言和視覺資訊在内的一系列輸入進行分析）和多圖像推理（同時使用多張輸入圖像進行推理或預測）。但谷歌展示的Demo中的空間範圍、物品種類、任務規劃複雜度等條件還比較有限，随着深度學習模型愈發複雜，PaLM-E也将打開更多可行性應用空間。

微軟正計劃将ChatGPT的能力擴充到機器人領域，使得能用語言文字控制機器人。目前實驗已經能夠通過給ChatGPT的對話框輸入指令，讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色标志的東西”等。微軟研究人員表示，“研究的目标是看ChatGPT是否能超越生成文本的範疇，對現實世界狀況進行推理，進而幫助機器人完成任務”。微軟希望幫助人們更輕松地與機器人互動，而無需學習複雜的程式設計語言或有關機器人系統的詳細資訊。

阿裡采用和微軟相似的路徑，正在實驗将千問大模型接入工業機器人。在近日舉行的第六屆數字中國建設峰會上，阿裡雲釋出一個示範視訊中展示了千問大模型的實際應用場景。其中，千問大模型接入了工業機器人，工程師通過釘釘對話框向機器人發出指令後，千問大模型在背景自動編寫了一組代碼發給機器人，機器人開始識别周邊環境，從附近的桌上找到一瓶水，并自動完成移動、抓取、配送等一系列動作，遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機器人工作，這将為工業機器人的開發和應用帶來革命性的變化，其背後意味着大模型為工業機器人的開發打開了新的大門。因為千問等大模型為機器人提供了推理決策的能力，進而有望讓機器人的靈活性和智能性大幅提升。

END

想要擷取海量投研資訊？

想要了解事件背後的邏輯、最硬核的投研邏輯？

（更多投研内容可關注公衆号《投研鋒向》加入社群，體驗更多0預期差紀要資訊）

免責申明：以上内容僅供學習交流，不構成投資建議。

具身智能産業： 技術模型分析、市場展望、相關産業及公司深度梳理

具身智能産業：技術模型分析、市場展望、相關産業及公司深度梳理