人形機器人真要落地了！“賽博保姆”開年震圈，創企融資訂單拿到手軟

智東西（公衆号：zhidxcom）

作者 | 香草

編輯 | 李水青

2024年剛過去三周，AI+機器人賽道就迎來爆發式開局！

前有斯坦福機器人大秀廚藝烹饪“滿漢全席”，後有特斯拉擎天柱化身保姆将T恤疊成“豆腐塊”，還有兩家創企的機器人比賽起了煮咖啡。這邊OpenAI支援的機器人企業1X剛宣布5億美元融資，那邊創企Figure就宣布旗下機器人入駐寶馬汽車工廠。

這似乎印證了英偉達進階科學家Jim Fan去年年末的一條預測：2024年将成為機器人爆發的一年，其重要程度僅次于大型語言模型（LLM），“我們距離實體AI智能體的ChatGPT時刻還有3年。”

▲Jim Fan稱2024年機器人的重要性僅次于LLM（圖源：X）

然而，機器人企業“狂歡”之下，其宣傳視訊的真實性、機器人産品的實用性等也引發了争議。不少網友指出，這些示範似乎存在剪輯等方面的誤導性工作。

那麼具體來看，AI機器人現在都能做些什麼？五花八門的行為背後究竟是自主執行，還是人為操控？AI機器人賽道目前的發展處于什麼階段？在落地層面還面臨哪些痛點？智東西與開普勒探索機器人首席執行官胡德波，優必選聯合創始人、首席技術官兼執行董事熊友軍等從業者進行了深入交流，尋找這些問題的答案。

胡德波談道，AI機器人最可能先落地的場景主要集中在簡單重複的、相對可控的任務上，包括工業制造場景、倉儲物流場景以及一些危險性的場景等。他認為調用雲端大模型所帶來的實時性問題，是落地層面目前最大的痛點。

談到AI機器人落地的痛點，熊友軍從資料、場景、安全性以及遷移成本等方面進行了分析。例如現有的訓練資料大多基于桌面，與實際場景中的應用有很大差距，大模型的不可解釋性可能導緻類似于語言模型中的“幻覺”等問題。

一、烹饪、煮咖啡、疊衣服，斯坦福谷歌特斯拉花式開“卷”

如果說在去年年末，預告2024年将成為“機器人之年”還隻是空喊口号，那麼今年以來，斯坦福、谷歌、Figure、特斯拉在不到一個月的時間内接連釋出了6項以上的新示範或新進展，則為這一觀點提供了有力的論據。

先是1月4日淩晨，來自斯坦福大學的三人團隊放出了基于Mobile ALOHA系統的機器人示範視訊，展示了機器人如何完成複雜的移動操控任務，無論是烹饪、清潔桌面，還是按電梯按鈕并乘坐電梯，都不在話下。

▲Mobile ALOHA烹饪、乘電梯、清潔示範（圖源：Mobile ALOHA團隊）

團隊開源了Mobile ALOHA系統的全部軟體、硬體和資料，從材料清單來看，硬體成本共約3.18萬美元，折合人民币約22.8萬元。

▲Mobile ALOHA硬體材料清單（圖源：Mobile ALOHA團隊）

據介紹，Mobile ALOHA是一種用于資料收集的低成本全身遠端作業系統，在訓練過程中，每項任務隻進行了50次示範，其中的關鍵在于使用Mobile ALOHA收集的資料執行監督行為，與靜态的ALOHA資料協同訓練，可将成功率提高90%。

ALOHA則是一個用于雙手遠端操作的低成本開源硬體系統，由來自斯坦福、UC伯克利、Meta等機構的團隊釋出于去年3月，Mobile ALOHA是在其基礎上的疊代。

▲ALOHA系統示範（圖源：ALOHA團隊）

Mobile ALOHA一經釋出便火爆全網，而不到24小時之後，谷歌DeepMind就在1月4日深夜連發三項新進展AutoRT、SARA-RT和RT-Trajectory，用于提升機器人的速度、資料收集以及泛化能力。

這三項新進展都基于DeepMind的RT-2模型（Robotics Transformers），這是一種視覺-語言-動作（VLA）模型，可以從網絡和機器人資料中學習，并将學到的知識轉化為機器人控制的通用指令。

▲RT-2模型的原理示範（圖源：DeepMind）

AutoRT是一種用于機器人智能體（Agent）大規模編排的具身基礎模型系統。

機器人首先利用視覺語言模型（VLM）進行場景了解，将描述輸入至大型語言模型（LLM）以得到自然語言指令；随後在另一個名為“機器人憲法”（Robot Constitution）的LLM的指導下，完善指令以實作更安全的行為。

▲AutoRT工作原理（圖源：DeepMind）

其中，機器人憲法包含三類規則，分别是基本規則，機器人不得傷害人類；安全規則，機器人不得嘗試涉及人類、動物或生物的任務，機器人不得與鋒利的物體（例如刀）互動；具身規則，如機器人隻有一隻手臂，則無法執行需要兩隻手臂的任務。

據介紹，在7個多月的實地評估中，AutoRT系統可同時安全地協調至多20個機器人，收集了包括6650個獨特任務的7.7萬次機器人試驗。

▲AutoRT在8個機器人上運作的延時示範（圖源：DeepMind）

SARA-RT提出一種自适應魯棒注意力機制，在不損失品質的前提下将RT模型改進為更高效的版本。在提供簡短的圖像曆史記錄後，最好的SARA-RT-2模型比RT-2模型準确率高10.6%，速度快14%。

▲SARA-RT-2模型用于機器人操作任務（圖源：DeepMind）

RT-Trajectory是一種通過事後軌迹草圖概括機器人任務的模型，用于提升機器人的泛化能力。它擷取訓練資料集中的每個視訊，并在執行任務時将其與機器人手臂夾具的2D軌迹草圖疊加，進而提供實用的視覺提示。

在對訓練資料中未見過的41個任務進行測試時，由RT-Trajectory控制的機械臂任務成功率達到63％，而RT-2僅為29％。

▲RT-Trajectory模型原理（圖源：DeepMind）

1月7日，創企Figure釋出了一則機器人Figure 01煮咖啡的視訊，并強調該機器人使用端到端的AI系統，僅通過觀察人類煮咖啡，即可在10小時内完成訓練。

▲機器人Figure 01煮咖啡示範（圖源：Figure）

據稱，Figure 01的神經網絡接收視訊訓練，輸出運動軌迹。它還學會了自我修正，如當濃縮咖啡沒有擺正時，它會将其調整到正确的位置。

▲機器人Figure 01自我修正（圖源：Figure）

融資方面的進展也沒落下，1月11日，OpenAI支援的AI和機器人公司1X宣布完成1億美元B輪融資，投資方包括三星NEXT基金、瑞典私募股權基金EQT等。

資金将主要用于将其第二代雙足人形機器人Android NEO推向市場，以及對現有企業客戶在物流和保安方面的支援。NEO專為日常家庭協助而設計，為消費市場中的各種家務任務提供多功能支援。

▲1X第二代雙足人形機器人Android NEO（圖源：1X）

沒過幾天，人形機器人界的“頂流”擎天柱（Optimus）也來湊熱鬧。1月16日，馬斯克釋出了一則擎天柱疊衣服的視訊，瞬間點燃了社交網絡，浏覽量超過7100萬次。

視訊中，擎天柱從身邊的筐中取出一件T恤，兩三下就把它疊成了“豆腐塊”。

▲擎天柱疊衣服示範（圖源：X）

1月18日，Figure宣布與寶馬簽署商業協定，機器人Figure 01将進入寶馬工廠，在汽車制造過程中“自動執行困難、不安全且乏味的任務”。

1月20日，一家來自中國的創業公司MagicLab釋出了一個人形機器人空翻的視訊，據稱是電驅動的人形機器人首次實作空翻。除此之外，MagicLab還展示了這款機器人煮咖啡、做拉花的過程。

▲MagicLab機器人做拉花（圖源：X）

二、虛假宣傳or真才實學？爆火之下真實性、實用性惹争議

不得不說，開年三個星期，産學研界都在“狂卷”AI機器人。然而，這些新成果在爆火刷屏的同時也引發了一些争議，如示範是否真實、機器人系統是否真的實用等。

在Mobile ALOHA示範視訊釋出後，除了贊許外，評論區也有不少質疑的聲音。

彭博社專欄作家Karl Smith評價道：“抱歉，我不認為這些蝦被完全煮熟了。這又是一場Gemini Ultra式的示範。”

▲網友質疑示範視訊的真實性及機器人的實用性（圖源：X）

說句題外話，看來谷歌在Gemini示範視訊中靠剪輯“造假”的行為确實令人印象深刻，“Gemini式示範”俨然成了一個新的形容詞。

“但是，它（做的菜）味道如何？”開發者Nick Dobos說。

▲網友質疑機器人烹饪的實用性（圖源：X）

網友Sarah Roark質疑它是由人類遠端操控的：“需要明确的是——這确定不是遠端操控嗎？”

▲網友質疑機器人是否為自主模式（圖源：X）

面對這些質疑，尤其是對自主模式和遠端操控的争議，Mobile ALOHA團隊很快在1月6日釋出了一個機器人“翻車”合集進行澄清。

實際上，斯坦福同時釋出了多個Mobile ALOHA示範視訊，其中作者之一Zipeng Fu釋出的視訊為自主模式下的操控。

▲Zipeng Fu釋出自主模式示範視訊（圖源：X）

而另一作者Tony Z. Zhao釋出的做“滿漢全席”的示範視訊，則是在混合模式下由人類遠端操作完成，但有很多人誤以為全部的示範都是在自主模式下完成的。

▲混合模式下的Mobile ALOHA（圖源：X）

在澄清視訊中，團隊展示了自主模式下，機器人犯過的一些“愚蠢的錯誤”。

比如，你以為它能優雅地拿起高腳杯，實際上“手滑”過不少次：

▲Mobile ALOHA将酒杯滑落（圖源：X）

炒好的蝦本該倒入碗中，卻倒在了桌面上，鍋還被燒焦了一半：

▲Mobile ALOHA将蝦倒在桌面上（圖源：X）

炒蝦的過程中，鍋鏟子也時常拿不穩：

▲Mobile ALOHA炒蝦失敗（圖源：X）

不過在失誤合集的視訊發出後，網友們不僅沒有落井下石，反而紛紛表示鼓勵。

“感謝分享這些。許多人看到之前的視訊并認為機器人是完全自主的，但實際上它是遠端操作的。正如這個視訊所示，自主模式要困難得多！”網友Phil Trubey說。

Tony Z. Zhao也回應道：“這确實是混合模式，我們真的希望人們可以通路該項目網站并閱讀論文/代碼！”

▲Tony Z. Zhao回應網友評論（圖源：X）

“我更喜歡這個視訊，因為它展示了背後的努力和進步。”網友Kevin Hu贊許這種真誠展示背後失誤的行為。

▲網友評價Mobile ALOHA失誤視訊（圖源：X）

日本創意工作室taziku首席執行官田中義弘說：“它并不完美，但換句話說，它可愛又讨人喜歡。”

▲網友評價Mobile ALOHA失誤視訊（圖源：X）

而擎天柱這邊，有眼尖的網友發現它的右下角似乎有一隻手正在遠端控制移動。

▲擎天柱的右下角出現一隻機械手（圖源：X）

馬斯克則是第一時間在評論區補充：“擎天柱目前還不能自主執行疊衣服的操作，但未來肯定能夠在任意環境中完全自主執行此操作（不需要帶有隻有一件襯衫的盒子的固定桌子）。”

▲馬斯克強調擎天柱非自主完成操作（圖源：X）

和Mobile ALOHA一樣，擎天柱的疊衣服展示也遭到了實用性方面的質疑。

有網友說：“我媽媽可能已經趕走它然後說：太慢了，還是我來吧。”

▲網友質疑擎天柱實用性（圖源：X）

“它像ALOHA機器人一樣進行遠端操作……在我看來，擎天柱的最大問題是成本。”AI創企Abacus首席執行官Bindu Reddy說。

▲網友質疑擎天柱成本效益（圖源：X）

還有網友覺得它的速度太慢了：“當他們試圖統治世界時也會這麼慢嗎？如果是這樣的話，我就不用再像以前一樣擔心終結者了。”

▲網友質疑擎天柱的行動速度（圖源：X）

三、資料少、場景多、實時性差，具身機器人落地還要攻破這些難點

這些示範雖然或多或少包含了炒作、包裝的成分，但不可否認的是，它們對具身智能機器人這一賽道都做出了不少貢獻。

一方面，示範視訊的爆火使得更多人關注到這個領域；另一方面，它們也展示了在精細的實體操作、低成本解決方案等方面的潛力。

對于斯坦福Mobile ALOHA團隊放出的失誤視訊，開普勒探索機器人首席執行官胡德波告訴智東西，這不能看作是“翻車”，而是成功背後的必然經曆。

他認為，Mobile ALOHA之是以爆火主要是因為激發了大家對于機器人在家務場景中應用的期待。在技術層面，它最大的貢獻在于實體操作的精細程度。做飯、澆花、洗衣服……Mobile ALOHA展示了機器人進入家庭所需要的解決這些瑣碎任務的能力。

▲胡德波與開普勒人形機器人在CES 2024（圖源：受訪者提供）

優必選聯合創始人、首席技術官兼執行董事熊友軍同樣認為這并不是一種“翻車”，而是技術發展的必然過程。在真實場景中通過遙控等方式來收集資料，能夠為以後的機器人訓練打基礎，提供更高效的解決方案。

談及Mobile ALOHA的主要貢獻，他認為這個系統展示了一種低成本的解決方案，如網絡攝像頭、筆記本電腦等硬體的選取。并且它目前仍處于Demo階段，如果未來投入量産，成本将會更低。

如果用GPT模型的疊代來比喻，胡德波認為AI機器人目前的發展階段大概相當于GPT-2。

具體來說，現階段的機器人已經展現出一些智能性和自主性，能夠學習并自主完成一些簡單的操作，即機器人的智商得到了顯著的提高。但目前，還沒有像GPT-3一樣能夠大規模解決問題、形成大量使用者并成為現象級産品的機器人出現。

在落地層面，胡德波認為最大的痛點在于實時性。由于調用雲端大模型的響應時間可能達到秒級，對于需要實時操作的機器人來說，這樣的時延是難以支撐其部署到場景當中的。

除此之外，熊友軍告訴智東西，資料、場景、安全性和遷移成本也是許多企業面臨的痛點。

▲優必選聯合創始人、首席技術官兼執行董事熊友軍（圖源：世界機器人大會論壇）

訓練大模型，首先面臨的就是資料收集的問題。訓練機器人模型所需要的資料不同于訓練大型語言模型，不僅需要文本語料，還需要大量的圖檔、真實的場景等資料。

而場景方面，由于現實中的實體環境非常複雜，現有的訓練大多都基于桌面，距離實際落地到生活中差距還很大。

安全性方面，由于大模型是黑箱操作，很多行為都不具有可解釋性。在語言模型中，如果出現錯誤等“幻覺”問題，可能隻是會誤導使用者，而機器人模型一旦出現錯誤，則有可能對環境或人類産生危害，造成不可挽回的後果。

最後，從訓練遷移到真實場景的成功率仍然很低，需要很多工程師花費大量精力去解決這些問題，是以遷移成本很高，要達到99%以上的準确性和可靠性還有很長的路要走。

雖然AI機器人落地仍面臨諸多難題，但熊友軍對此也持樂觀态度。AI機器人賽道關注度高，獲得了諸如前文所述的很多公司、資源投入，再加上AI技術的飛速發展，這兩年所取得的進度比過去十年都要多。

總的來看，胡德波談道，AI機器人最可能先落地的場景主要集中在簡單重複的、相對可控的任務上。

一是制造場景，其中包含大量輔助性的、相對比較簡單的工作；二是倉儲物流場景，包括分揀、搬運等一些重複性的體力勞動；三是危險場景，如核電站、化工廠、軍工廠等地的巡邏巡檢。

結語：機器人“接管人類”為時尚早

能自主做飯清潔疊衣服的機器人固然吸引眼球，不過冷靜下來再看，我們會發現這些機器人仍需要人類遠端操控，在完全自主的模式下則表現得“笨手笨腳”，離真正的智能還有一定距離。

資料、場景、安全性等問題仍是機器人的“緻命弱點”，欣慰的是，我們已經看到DeepMind等機構在這些方面取得了更多進展。

無論如何，企業和機構的“卷”是件好事，我們期待在2024年看到AI機器人學會更多技能，在進入工業、家庭等場景的路上走得更遠。

人形機器人真要落地了！“賽博保姆”開年震圈，創企融資訂單拿到手軟

人形機器人真要落地了！“賽博保姆”開年震圈，創企融資訂單拿到手軟

繼續閱讀

靠，買個東西，還氣到我自己了。這家内衣店鋪，我百分百拉黑。我買的是灰紫色和綠色，已經很久不買黑色的了，好家夥，我一直拿回

歐洲杯第8日看點：黑馬力争提前晉級，法國荷蘭上演強強對話

42歲賈玲現狀：沒了「褶子」皮膚白嫩像30歲，我感慨年齡不是問題

轉融券，叫停比加強監管更重要

“十六五不做，不富也添喜”，五月十六啥日子？5不做分别指啥？

面對香蕉某團體“驅逐熊貓駐馬尼拉代表、逮捕傷人者”的提議，郭正亮等人的反應亮了！香蕉因仁愛礁補給行動的徹底失敗招緻灰頭土

足壇狠人 | 多納魯馬，是亞平甯的光輝傳承，也是藍衣軍團僅剩的驕傲

2年1400萬！5年6500萬！NBA最賺錢主帥下課，湖人心動不如行動

夏至到了，建議中老年：有錢沒錢，多吃3種肉，養陽散寒平安度夏

夏至将至，有錢沒錢，記得吃“夏至4珍”，應季而食，順利入伏

雷軍大殺招！小米汽車SUV路測諜照曝光：網友直呼法拉利Purosangue既視感

豪賭美債巨虧日本第五大銀行爆雷

中國女排慘敗日本原因曝光！惠若琪說出真相，暗諷蔡斌？不練新人

OpenAI競争對手Anthropic突然釋出強大AI模型Claude3.5！GPT-4o不香了

漲價500元！iPhone 16四款機型定檔

Manner飛速擴張，員工把怨氣潑向顧客