人形機器人+大模型，為什麼是投資人追逐的新風口？

圖檔來源@視覺中國

“一個上午，接待了40多個投資人來現場，都是來看人形機器人的。”一位追覓員工說道。

有投資人指着正在表演咖啡拉花的機器人問：“這個動作的難度在哪兒？”另一邊，一位自稱開煤礦的老闆指的旁邊站立的另一台人形機器人問：“多少錢，怎麼訂？”

2023世界機器人大會上，以前隻能在科幻電影中出現的人形機器人在現場表演起了各種技能。小米、追覓科技、優必選、達闼科技、宇樹科技、大連蒂艾斯科技、星動紀元、理工華彙等很多公司都把自己的人形機器人搬到了現場。

大連蒂艾斯科技展示的人形機器人，甲子光年現場拍攝

這是2023世界機器人大會上熱鬧的一角。今年的大會，160家國内外機器人企業，600件機器人都在現場久違的大秀了一把肌肉。人形機器人搶走了大部分風頭。全球知名的波士頓動力創始人Marc Raibert、日本知名機器人學者石黑浩都來了。

人形機器人正在成為資本市場的新熱點。一級市場，百度、經緯、高瓴、鼎晖、高榕、雲啟、真格、梅花創投等都在一線積極調研，前半年聊大模型的風投現在沒有人不關心通用機器人。

目前國内外已經有一些出手的案例：

美國人形機器人創業公司Figure兩個月就完成了兩輪融資：7月獲得了英特爾投資的900萬美元投資；今年5月，Figure完成了7000萬美元A輪融資，由Parkway Venture Capital領投。根據路透社報道，在5月融資時，Figure估值已經超過4億美元。

國内市場，曾經的華為天才少年稚晖君創立的智元機器人（Agibot）也正在受到一線基金的追捧，百度、經緯、高瓴、鼎晖、高榕等均參與了投資。

近日，通用機器人公司月泉仿生也完成了一輪由北京北科中發展啟航創業投資基金的獨家投資。月泉仿生的核心業務是通用型仿生人形機器人及核心零部件的産業化。月泉仿生由吉林大學工程仿生教育部重點實驗室任露泉院士團隊創立。

二級市場，人形機器人概念股都炒了幾波。5月，馬斯克在2023年股東大會上關于人形機器人Optimus的一番話，直接拉漲了一波A股機器人概念——賽摩智能20CM漲停，豐立智能在六個交易日漲幅近160%，直接引發了深交所的關注，要求說明股價漲幅較大的原因及合理性。

為何人形機器人成為了香饽饽？投資人紮堆調研的背後，人形機器人面臨哪些機會和挑戰？

1.特斯拉、小米、追覓

熱火朝天的人形機器人

特斯拉是這波人形機器人熱潮的直接推動者。

在2023年股東大會上，馬斯克說，人形機器人Optimus對運動和力量的控制以及環境感覺方面有顯著加強，技術正在快速疊代。他預測，機器人的需求可能會達到100億，甚至更多。如果以人類和機器人的比例為2:1，那麼對人形機器人的需求可能會遠遠超過汽車的需求。

馬斯克的相信和投入點燃了很多人對人形機器人賽道的信心。

特斯拉有可能會推動整個産業鍊走向成熟。梅花創投創始合夥人吳世春告訴「甲子光年」：“在新能源汽車産業鍊領域，特斯拉帶動智能汽車産業鍊整體向前發展，它在上海的工廠帶動了整個中國智能産業鍊的逐漸成熟。下一個可能是人形機器人。”

“這是好事，我們也在觀察這個行業裡哪些地方有投資機會，可能是整機、零部件或軟體。”吳世春說。

在特斯拉2022 AI Day活動上，特斯拉人形機器人“Optimus”首次亮相，并在現場完成了自主行走、轉身、停止、揮手問候等動作。雖然在本屆機器人大會中沒有看到“Optimus”的身影，但在今年的世界人工智能大會上，我們在上海見到了一款在櫥窗裡的“Optimus”。

甲子光年現場拍攝

“Optimus”采用了與汽車一緻的計算機視覺、處理視覺資料、做出行動決策、支援通信交流的“大腦”，以及與特斯拉車輛相同的晶片，還搭載與特斯拉車輛同源的FSD電腦以及Autopilot相關神經網絡技術，預計最終售價不超2萬美元（約14.4萬元人民币）。

明勢資本創始合夥人黃明明認為，電動汽車公司做人形機器人有先天優勢。“兩年前馬斯克要做Tesla Bot的時候，很多人覺得他不務正業。但如果仔細分析特斯拉的技術棧會發現，機器人是電動汽車的自然延伸。車是第一代的四輪機器人，理想汽車今年年初确定的願景不是成為全球最大的電動車企業，而是成為最優秀的人工智能和機器人公司。”

他提到，認知型機器人是下一個巨大突破。“可能是人形，也可能是四足。現在我們在工廠、産線、物流已經有各種各樣的機器人，但這些機器人的程式都是人類工程師寫好的，動作是被我們固定好的。但是認知型機器人和自動駕駛一樣，有感覺、分析判斷能力，有人機互動能力、對于3D世界的實時了解能力，以及精準的操作能力。”

人形機器人的的任務泛化能力決定了它能走的多遠。很多企業正在瞄準這個方向發力。

智元機器人最近釋出的具身智能機器人遠征A1就是一款人形機器人，稚晖君稱：“智元機器人緻力于将先進的機器人和AI技術與人類生活以及生産制造緊密結合，未來讓機器人成為人類的得力助手。遠征A1未來可以在各種複雜場景下自主完成移動和操作任務。”

前述提到的創業公司月泉仿生的機器人已經能夠做到和人手相似的靈巧性。公司自主研發的類人仿生智能靈巧手在外力幹擾下可以通過主動移動、屈曲、翻轉等動作調整，以保持手持物體不掉落。“除了基礎的抓握、按壓等動作外，還可以完成27種不同的手部複雜精細操作，比如使用筷子夾取細小物體、塗抹護膚品、攪拌咖啡、刷手機、解扣子等。”據悉，月泉仿生智能靈巧手采用拉壓體驅動技術，擁有極高自由度。同時内置了柔性傳感器，具有觸覺神經回報。

月泉仿生智能靈巧手，公司供圖

月泉仿生CTO趙迪告訴「甲子光年」，目前關節型的人形機器人普遍隻能進行抓取拿放，很難執行解扣子這種更複雜的動作。人形機器人要想真正服務人類，一個好用能幹活的雙手是必需的，是以在底層原理方面創新突破并提出全新的構型顯得尤為重要。

人形機器人運動方面，月泉仿生同樣圍繞着“仿生拉壓體機器人”這一自主創新理論展開研究。趙迪提到，“正常情況下，一個關節最高可有6個自由度，但關節驅動機器人為了追求控制精度鎖死了自由度，實際最多隻有1~3個自由度，由此造成功耗水準也很高，是人體運動功耗水準的幾十倍乃至上百倍。”

據他介紹，月泉的仿生拉壓體機器人能夠克服傳統關節驅動機器人的缺點，使機器人具備與人相似的運動特性，可以在具備較高運動自由度的情況下，能夠兼顧穩定性，并且能實作關節剛度的快速自适應調節同時能使機器人實作與環境的安全互動，運動能耗名額僅為人體的一到兩倍。同時，由于采用了新的驅動方式，月泉仿生的産品不再需要使用複雜昂貴的減速器，降低了成本。據了解，公司也自研了微電機和仿生材料，以比對拉壓體驅動方式的性能需要。

在機器人大會現場，我們也看到非常多在展現各種技能的人形機器人。

追覓把今年3月新釋出的人形機器人帶到了現場，這是一款身高 178cm，體重 56kg的機器人，全身共 44個自由度，其中單腿還有完整的6個自由度，可以完成單腿站立。此外，機器人身上還配備了深度相機，可以完成室内3維環境的模組化，同時還內建了AI大語言模型，可以進行實時溝通對話。

表演咖啡拉花的追覓機器人，圖檔來自追覓

追覓科技人形機器人負責人喻超告訴「甲子光年」：“人形機器人自主實作咖啡‘拉花’的難點在于，它需要在開放空間裡與人進行互動，這意味着它所處的空間位置和運動軌迹會有許多不确定性，同時需要識别不同材質及尺寸的工具。要解決這些問題，就要搭載更多的智能模型、傳感器，并在機械結構設計上做創新調整。”

機器人公司宇樹科技不僅帶來了已經在行業場景中落地的四足機器人，也帶來最新釋出的人形機器人H1。

甲子光年現場拍攝

這是一款能跑的全尺寸通用人形機器人，擁有全球近似規格最高動力性能，并配置有360°全景深度感覺，行走速度大于1.5m/s，潛在運動能力大于5m/s，整機重量約在47kg左右。相關人員告訴「甲子光年」，H1會在下半年正式投入生産，價格在幾十萬元人民币以内。

即使被人從側面，後面踹一腳，H1都可以像人一樣，稍微踉跄之後還能找到新的平衡，不會摔倒。一位機器人工程師告訴「甲子光年」：“實作這種功能并不是一件容易的事，背後用哪個數學函數大家都知道，但是能把它真正落地到産品中很難。”

大家對小米的好奇更多集中在最新釋出的四足機器人身上，去年釋出的人形機器人“鐵大”反而少有人在關注。據「甲子光年」了解，去年小米釋出的人形機器人“鐵大”由追覓制造，後者本身也是小米生态鍊中的一員，在高度馬達等多個軟硬體方面有一些經驗積累。

甲子光年現場拍攝

達闼把人形雙足機器人“七仙女”小紫帶到了現場，這款機器人身高165cm，體重65kg，全身采用了輕質高強度的碳纖維複合材料，擁有60多個智能柔性關節，由達闼全棧自研，搭載了海睿雲端大腦作業系統，內建了機器人多模态人工智能大模型RobotGPT。現場還有一個人形機器人穿着球衣在表演定點投籃。達闼創始人兼CEO黃曉慶稱，“七仙女”将在2024年正式釋出，2025年規模量産。

來自浙江大學控制學院機器人團隊的同學也帶着“悟空-4”人形機器人來到了會上。據了解，“悟空-4”可适應室外路面、草叢、泥濘路面等多種地形，最快運動速度可以達到6公裡/小時，還能跳高0.5米，還可以可上下25度斜坡和10厘米台階。在路面打滑和外部推力幹擾等未知擾動下，可快速恢複平衡并保持穩定行走。

浙江大學供圖

“悟空-4”通過融合腿足運動技術與環境感覺技術，實作了機器人的三維環境地圖建構和自主動态導航。該項目導師是朱秋國和熊蓉，都是機器人領域的專家，長期從事腿足機器人、機器人智能感覺控制、群體協作控制等研究，有深厚的理論與技術基礎。

清華大學交叉資訊研究院和上海期智研究院所孵化的創業公司星動紀元也帶着人形機器人産品來到了現場。

這次，星動紀元的兩款産品小星和小星MAX都進行了現場示範。小星在水泥地上、樹林裡、草地裡、石子路上都能快速行走，且有一定的穩定性。

甲子光年現場拍攝

這兩款機器人産品背後，是公司自主研發的一系列軟硬體技術：基于本體感覺驅動器的人形機器人本體；使用自研高扭矩密度子產品化關節以及一體化結構設計；以高強度合金、碳纖維和工程塑膠等先進材料，保留美觀外形，提高了結構的強度和穩定性；布局大語言模型，配以先進的力控算法，具備高動态性能的同時能更好地了解人類。

從投資人追捧、頭部科技公司入局，到創業公司和高校的創新研究，眼下，人形機器人正在多個方向齊頭并進，迎來新的發展階段。

2.給人形機器人裝上大腦

大模型是推動人形機器人走向熱潮的另一重關鍵技術變量。

OpenAI靠一己之力讓人類邁進了通用人工智能的大門前。大模型的觸角正在進入各行各業，與機器人結合之後，人類開啟了對通用機器人可能性的新想象：隻能聊天對話太局限了，能不能通過指令，自己拆解任務并執行到底？

雲啟資本合夥人陳昱認為，大模型本質是軟體能力，在數字世界中，與現實世界連接配接最好的載體實際上是硬體載體。“目前，我們更看重如何将大模型與機器人硬體結合，實作通用機器人的形态。”在他看來，具身智能讓通用機器人已經看到了一個可能的路徑，資本就是去給行業添一把柴火，經過五年到十年的大規模的投入，讓它燒的更旺，最終實作通用機器人的商用化。

陳昱提到，目前機器人側研發關注的重點與以往不同：不再僅限于完成某一類特定工作，而是進一步完成多類型任務。比如過去，配送機器人負責配送、建築機器人智能刷牆。但在通用智能化的大背景下，未來将有可能實作機器人靈活用工，比如工廠環境中的機器人既能擰螺絲、又能噴漆、還能完成零件組裝。

目前，不管是“具身智能”還是“通用人工智能”都是市場對2023年的人形機器人的新期待——通用人工智能對實體世界的價值需要有具身的實體來承載，并和真實的實體世界進行互動，才能更大範圍的影響人類。

線性資本投資總監辛未認為，大模型打開了通用機器人的可實作性。辛未提到，機器人的通用化，需要解決幾個技術的問題：上層需要對任務做了解、定義、規劃、拆分；中間需要能夠強泛化的執行層來滿足不同場景的任務執行；底層是相對成熟的機器人控制，再搭配上合适的硬體本體。“三個層級中，在大模型出來之前，我們認為頂層是最難實作的，而大模型的能力完全比對了這一層的要求，使通用機器人具有變為現實的可能。”

很多創業公司看中的也是技術驅動下，人形機器人的新能力可能會打開全新的需求，更靠近落地。

宇樹科技創始人王興興提到，在幾年前，市場不看好人形機器人最關鍵的原因是，人類的控制技術沒辦法駕馭人形機器人這麼複雜的機器人形态。如今，在大模型的技術發展下，AI的發展已經遠超機器人需要的技術。“現在做人形機器人，借鑒現有的大模型技術，做一個小模型甚至中等模型就能用了，這讓通用人形機器人技術層面邁過了一個鴻溝，未來幾年，隻要突破工程方面的問題，就可以讓人形機器人可以發揮很大的生産價值，帶來颠覆性的落地應用。”

正在研究雙足機器人的智能機器人公司逐際動力創始人張巍認為，人形機器人帶來的機器人通用機會在于，既可以解決目前專業機器無法處理的問題，同時需要具備至少2-3個不同工種勞工的能力，比如既能搬箱子，還可以揀貨、進行品質檢測等，它需要是一個通用的實體運動平台。

相比國内，國外的進展更快一步，已經把大模型的能力從語言穿透到執行層。

今年7月，李飛飛團隊在網上公開了一個新的具身智能研究項目：接入大模型的機器人可以根據人類發出的語言指令，自己進行拉抽屜、擰瓶蓋、稱重蘋果等動作。

7月28日，谷歌DeepMind最推出的機器人模型Robotics Transformer 2（RT-2）也是這一方向研究的延伸。RT-2是一個全新的視覺-語言-動作（VLA）模型，可以從網絡和機器人資料中學習，并将這些知識轉化為機器人控制的通用指令。RT-2表現出了更好的泛化能力——了解範圍超出它所接觸到的機器人資料的語義和視覺範疇，且能解釋新指令并通過執行基本推理來響應使用者指令。

Google DeepMind的論文中介紹了Robotics Transformer 2（RT-2），一個全新的視覺-語言-動作（VLA）模型，它從網絡和機器人資料中學習，并将這些知識轉化為機器人控制的通用指令，同時保留了web-scale能力。

這些研究都為人類邁向通用機器人奠定了關鍵一步。國内，來自清華的團隊也一直進行這一領域的研究。2000年圖靈獎獲得者、中國科學院院士、清華大學交叉資訊研究院院長姚期智在論壇分享中提到，這種融合了大模型能力的新一代具身智能體需要具備三個特征：

第一是身體，這部分需要有足夠的硬體，比如傳感器和執行器；第二是小腦，可以主導視覺、觸覺各種感覺，來控制身體，完成複雜的任務；第三是大腦，主導上層的邏輯推理、決策、長時間的規劃，并以用自然語言和其他的智能體、環境交流。

如果具身智能為核心的通用機器人是未來方向，這個形态為什麼一定是人形機器人？

誠然，通用機器人不一定等于人形機器人，但目前，很多機器人從業者都提到，人形機器人是公認的最好的通用機器人形态。

姚期智在分享中提到，目前，最好的通用機器人形态就是人形機器人，一方面人形機器人更能适應各種環境，另一方面，目前人類社會環境中的種種設計都是為人類量身定做，比如樓梯結構、門把手高度、杯子形狀等，都是為人類形象所定制。是以，如果要打造一個有泛應用能力的通用機器人，人形是目前最好最适合的形态。

真格基金合夥人劉元告訴「甲子光年」，他認為，人形機器人的産品定義和需求是有基礎的，它在某種程度上與人類數百年前對機器人的期待就有些相似。縱觀曆史中各類技術的發展，很多新的産品都是對幾百年前人類科幻作品中對未來生活的需求和解決方案的一種遙遠回響。“幾百年前，人類就想讓機器人幫做家務。之後就有了洗衣機、微波爐、掃地機器人。可以說，科幻完成了人類對于需求的一個産品定義。”

但他也提到，這個階段很多公司一擁而上做人形機器人也有很大的跟風成分。

3.大模型解決不了的問題還有很多

理想豐滿的另一面是現實的骨感。對于正加速布局人形機器人賽道的科技公司而言，在把握目前機會的同時還要考慮更多現實的技術難題和商業化挑戰。

技術層面，正如谷歌、李飛飛等團隊正在研究的一樣，通用機器人領域也需要類似GPT-4這樣的大模型，能夠真正一步到位，把多模式能力融合在一起，真正統一具身智能的發展。

但這并非易事，明勢資本合夥人夏令告訴「甲子光年」，目前論文和一些demo展示的機器人與大語言模型結合偏重互動問題，但并不是解決互動問題後，人形機器人就變成了通用機器人。“因為即使基于人機互動完成高層次任務分解和規劃，機器人仍需要控制和執行，包括在複雜地形的通用移動能力和高精度操作能力。這些能力對機器人來說仍有很大挑戰。”

夏令認為，在控制執行層面，大語言模型難以解決問題。“站在整個通用機器人的發展角度來看，大語言模型有貢獻，但對底層控制和執行的影響有限。目前學術界采用AI驅動的方法，希望把強化學習的方式做底層的控制執行，但這和大語言模型并沒有直接的關系。且強化學習的控制方法大部分還停留在學術研究階段。”

身在其中的企業也正在面對這些難題。宇樹科技創始人王興興提到，機器人領域會出現自身的大模型。在他看來，大模型與機器人的融合是一個難點，一些通用大模型并的文字邏輯化和處理能力不錯，但由于不是給通用人形機器人專門使用，是以這些大模型對環境認知和感覺能力基本是零。而不同于大語言模型的資料集可以直接從網際網路端擷取，機器人的資料都是動态的資料集，需要在仿真環境中，獲得動态模拟資料，也依賴于和實體環境的基礎和互動，這些都需要一定的時間。

對于未來的技術進展，王興興相對比較樂觀，“目前英偉達已經在推進在仿真環境中的相關訓練，從目前全球的熱度以及目前人工智能行業的進展來看，不超過10年，會有顯著性進步。”

也有人覺得不會很快。德國慕尼黑工業大學教授Alois C. Knoll提到，接下來，機器人領域也需要慢慢的像大語言模型一樣，一步步的內建仿真、模組化、程式設計、人工智能等多項能力，走出自身的智能泛化能力。“人形機器人是目前見到的最難最複雜的機器之一，這個過程需要時間，可能會比AGI慢，可能不會快速地見到巨變。”

另一個關鍵的挑戰在于軟硬體能力的協同進化上。

與很多人都在推崇大模型給人形機器人帶來颠覆性的機會不同，波士頓動力創始人Marc Raibert在演講中提到，未來的機器人技術發展過程中，硬體工程和軟體同等重要。“有些人認為軟體可以克服硬體上所有的問題和限制，我并不贊同這個觀點”。

在他看來，隻有最好的硬體設計師和軟體性設計師傾力合作，才能夠設計出世界上最好的機器人。以波士頓動力的人形機器人為例，在Atlas的硬體工程方面，公司做了大量工作——包括液壓系統、多個專門的閥門、專用電池、負載等各個方面，把機器人的重量從170公斤縮小到90公斤，這個過程中，他們沒有在機器人的功能上有任何妥協，反而提高了機器人的運動範圍力量和速度。

這是目前最現實的難點。尤其對于創業公司而言，平衡技術實作、性能和成本是關鍵能力。

星動紀元CEO陳建宇稱，目前星動紀元希望機器人能同時兼顧力量、速度、精度以及成本，但确實難以做到。“液壓技術能讓機器人的速度和力量都很強，但成本太貴；電驅動技術取決于如果用高減速比的諧波技術，但一旦精度比較高，承載也不錯，靈巧性又會降低；而靈巧度上去了，成本比較低，但卻要犧牲機器人的載荷和精度。現在很難兼顧所有情況，隻能針對不同的應用場景，進行各要素的平衡。”

此外，在安全性上，大語言模型胡說八道可能造成的影響不大，但一旦一台搭載大模型的機器人進入生活，就需要保證準确度和安全性，這些都是技術需要改進的方向。

這些問題都需要人形機器人公司需在場景中不斷試錯才能找到解題思路。

線性資本投資總監辛未告訴「甲子光年」：人形機器人目前可展示的 demo 都相對初級，無論是移動還是操作，在場景端真正用起來需要算法和硬體有強泛化性，這是其商業化的基礎，目前人形還有科學側的問題沒有解決。“當然，我們既不能高估技術的短期效應，也不能忽視技術的長期進步，通用機器人已經變成大火的領域，無論是學術側還是工業側，更多的力量和資源湧入，我相信能在一定程度落地的商業化産品不遠了。”

明勢資本合夥人夏令認為，對于今天想去做通用機器人的創業公司而言，類比自動駕駛的發展，找到可商業化閉環和可資料閉環的L2尤其重要。因為它具有真實的商業化價值，同時底層技術能夠在商業化價值實作的基礎上，實作資料飛輪，支援繼續向L4的方向去發展。“如果你隻有L2，沒有去做L4的技術架構、野心及能力也是不行的。是以就是要心懷着一個L4偉大的夢想，同時要腳踏實地找到一個可商業化的L2。”

技術、場景、成本、安全，機會和挑戰正在同時到來，人形機器人正邁出了通往未來的關鍵一步。

（封面圖來源：百度文心一格）