天天看點

人形機器人:通用之戰和未解之題 | 钛媒體深度

作者:钛媒體APP

不論你接受與否,人工智能技術已經開始對于現實世界的重重改造。

消費電子領域,手機和電腦廠商們正在将不同種類的AI大模型,植入到各種終端産品中。這些公司普遍認為,AI能極大程度地改善困于創新瓶頸中的行業現狀,重新激發使用者的購買需求。汽車行業,特斯拉4月初向全美國的170萬車主推送了FSD(完全自動駕駛)正式版本,端到端的神經網絡AI系統讓駕駛決策更像人類司機,比如連續跨越4車道轉向。更為重要的是,目前為止特斯拉FSD還沒有被曝出發生任何重大事故。

AI的下一站會在哪?習慣于捕捉趨勢的風險投資人,開始在人形機器人行業集結共識。

人形機器人:通用之戰和未解之題 | 钛媒體深度

在中國的一級市場,2023年10月,人形機器人初創公司逐際動力完成近2億元的天使和Pre-A輪融資;同年12月,成立不到一年的智元機器人拿到6億元的融資資金;2024年1月,成立不足半年的星動紀元宣布完成過億元天使輪融資;2024年2月,宇樹科技完成B2輪融資,金額達到10億元。

“中國機器人行業的發展經曆了好幾輪起伏。2013-2014年,工業機器人的投資開始起步;2016-2017年,協作式機器人領域又掀起了一輪投資熱潮。從2022年開始,通用人形機器人成為了行業關注的焦點。”

峰瑞資本副總裁顔黔杭對钛媒體APP表示,中國國産工業機器人的市場滲透率已經達到了1/3左右,整個機器人行業正在逐漸成熟。而 AI 大模型産生的質變,讓大家意識到機器人的智能化程度會越來越高,并逐漸通用化。

至于通用人形機器人何時能夠真正走上産線、走進家門,行業内的創業公司則有着不同的判斷。逐際動力方面認為,通用人形機器人要代替産線上人類的精細操作,還需要5-8年;真正走向家用市場,則需要8到10年。宇樹科技的創始人王興興則對钛媒體APP表示,“2025年底前,更加通用化的人形機器人會出現,我感覺已經看到了方向。”

馬斯克,一呼百應

是什麼點燃了人形機器人的“這把火”?幾乎所有的受訪者都給出了一緻的答案,那就是特斯拉的創始人——埃隆·馬斯克。

2022年2月,特斯拉完成了Optimus開發平台制造;7個月後的特斯拉人工智能日2.0上,馬斯克帶着Optimus平台研發的擎天柱機器人原型亮相,該款機器人已能夠獨立行走和搬運物品。2023年年底,第二代Optimus正式亮相,重量減輕10千克、行走速度提高30%,并擁有更靈巧的手和自由度更高的脖子。

馬斯克入局之後,人形機器人的創業潮被徹底引爆。

人形機器人:通用之戰和未解之題 | 钛媒體深度

特斯拉人形機器人 Optimus

2023年以來,包括宇樹H1、智元遠征A1、傅利葉GR—1、星動紀元“小星”、逐際動力CL—1、小鵬PX5在内的一批國内人形機器人産品被推出。二級市場,被稱為國内“人形機器人第一股”的優必選,盤中股價一度上漲超過88%,盡管這家公司目前的主要收入來源并非人形機器人産品。

海外市場,2023年5月,挪威人形機器人初創公司1X宣布完成由OpenAI領投的2350萬美元A2輪融資。幾乎同時,美國人形機器人公司Figure拿到了7000萬美元A輪融資。2024年1月,1X再次完成1億美元B輪融資,投資方包括EQT Ventures和三星NEXT等。一個月之後,Figure宣布完成6.75億美元B輪融資,投資方包括微軟、OpenAI、英偉達等。

“2022年,OpenAI還沒有釋出ChatGPT,但馬斯克可能先于行業看到了GPT的能力。”

王興興對钛媒體APP表示,馬斯克之前不論是在汽車行業還是商業航天領域,都證明了他的成功。是以,當馬斯克開始做人形機器人之後,政府、市場、資本機構都認為必須加快入場,不能等特斯拉真正做出來了大家再去追。當然,人形機器人受到關注的更本質原因是,AI大模型的出現。

據王興興介紹,此前宇樹科技并未有涉足人形機器人賽道的想法,因為人形機器人太複雜,用傳統算法根本沒辦法駕馭這種複雜機器。但是,目前AI技術的發展已經遠超其預期。比如,以前一到兩年才能讓人形機器人學會走路,現在利用AI算法訓練一個月就可以實作。

“傳統人形機器人的訓練算法,相當于是靠一些聰明的人類大腦去寫一些數學方程式,然後去求解這個方程,制定機器人的運動軌迹。但這些方程式有很大的局限性,一旦環境出現變化,可能就沒法用了,需要重新設計新的方程式。”

王興興進一步解釋稱,這樣的訓練方式會導緻代碼量非常大,而且當系統複雜到一定程度,單純靠人力是無法維護這個系統的。但是對于AI來說,隻要模型搭建得足夠好,然後不斷給AI投喂資料和算力,AI就可以不斷地試錯。利用強化學習算法中的獎勵機制,AI就能自動把好的訓練結果留下來,壞的扔掉,訓練效率得到質的提升。

靠着AI帶來的效率提升,宇樹科技僅花了半年的時間,就推出了旗下的第一款人形機器人産品。在2024年GTC大會“壓軸”環節,英偉達CEO黃仁勳與九個人形機器人一起登場。其中,左起第二個人形機器人就是是宇樹科技旗下的Unitree H1。

人形機器人:通用之戰和未解之題 | 钛媒體深度

圖檔來源:英偉達官網

需要注意的是,人形機器人的這波熱潮,甚至倒逼了該領域的鼻祖——波士頓動力,做出改變。

波士頓動力是一家美國的工程與機器人設計公司,成立于1992年。 2013年,波士頓動力在美國國防部競賽中公布了人形機器人Atlas 。多次疊代之後,Atlas可以實作完成各種複雜動作,比如快速奔跑、360 度旋轉跳躍、翻越障礙物等。運動控制方面,Atlas采用的正是“大量方程式求解”的傳統算法,并由液壓裝置提供動力。

“Atlas之前披露過的成本是200萬美元左右一台。而目前市面上在售的人形機器人,宇樹科技的産品售價約為60萬元,傅利葉則為100萬元左右。”星動紀元聯合創始人席悅對钛媒體APP表示,這就是波士頓動力和新一代人形機器人在成本上的巨大差距。

2024年4月16日,波士頓動力宣布液壓版Atlas正式“退役”。之後,波士頓動力推出了新款全電動Atlas,和目前所有的人形機器人産品一樣,利用電池提供動力來源。接下來的控制算法,波士頓動力大機率也會引用效率更高的AI模型。

三大未解之題:大腦、小腦和本體

“人形機器人現在的熱度,相當于是一個小火苗,才剛剛開始燃燒起來。如果AI和硬體每年都持續疊代,這個行業對于現實世界的颠覆将會非常強。”

王興興表示,到明年年底前,全球至少有一家公司可以把比較通用的機器人大模型開發出來。這個基礎大模型就像是一個完整的積木,大語言模型隻是其中一塊,其他組成部分還包括視覺感覺、力覺感覺、決策和互動等。

不過,這樣的判斷在人形機器人行業中還未達成共識。更主流的觀點認為,人形機器人想要實作更大程度的通用化,需要在大腦、小腦和本體上同時取得突破,這在短時間内幾乎是無法完成的。

所謂大腦,指的是機器人的了解能力,也就是機器人對于人類指令的了解以及環境感覺。小腦,是指機器人的精細化運動控制能力;本體,則是構成人形機器人原型的各類零部件,比如關節、四肢、頭等。

“大模型的出現,主要提升了機器人的大腦能力。”峰瑞資本執行董事劉鵬琦對钛媒體APP表示。

顔黔杭則對钛媒體APP稱,但就像“缸中之腦”一樣,現在大模型隻是一個向外輸入和輸出語言類或者多模态資訊的大腦,獨立于機器或本體存在。未來大模型到底應該接入什麼樣的身體,才能完全發揮通用化功能?目前,不管是投資人還是創業者,大家都在探索的一個過程中。

而在小腦方面,目前的人形機器人已經在直立行走方面取得了長足的進展,不論是平地還還是崎岖的山路。在細分場景中,Figure 01成為了第一個“拿起蘋果”的人形機器人;斯坦福團隊的Mobile ALOHA,則展現了不錯的炒菜、收拾物品等能力。

人形機器人:通用之戰和未解之題 | 钛媒體深度

圖檔來源:Figure官方

但是,人形機器人想要實作完全通用化,這些進展還遠遠不夠。無論是拿蘋果還是炒菜,展現的都是機器人的模仿學習能力,也就是通過一遍遍模仿人類動作,學習單一技能。

“機器人跟實體世界互動的高品質資料其實難獲得,是以模仿學習有其用武之地——通過用人去教他,去積累一些數。不過當下的模仿學習隻是單純地教機器人複制人的動作,但它并不能了解每一個動作的驅動要素是什麼。或者說,機器人不明白為什麼動作要這麼做。”顔黔杭表示,如果讓機器人完成“端杯水然後加點糖”這類複雜的人類操作,模仿學習可能就無法實作。

“視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他次元的感覺能力,今天的機器人都是欠缺的。”顔黔杭稱,比如觸覺、力覺的傳感器市面上雖然有,但現在目前并沒有在機器人領域普及,主要原因是這些傳感器內建度低、價格貴,體積相對與人形機器人來說也太大。

“強化學習就是不斷試錯的過程,相比于模仿學習有更強的泛化性。”

星動紀元聯合創始人席悅對钛媒體APP表示,類似于自動駕駛的訓練方式一樣,強化學習可以通過建構仿真環境,讓機器人在真實場景的模拟環境中進行訓練,在不斷地試錯中優化自己的行為。“強化學習訓練出來以後,機器人不僅能走樓梯,它也能走雪地,也能走草地,實作更好的泛化性。”

但需要注意的是,仿真環境與真實世界無法做到完全相同,現實世界的互動環境以及互動對象相比于仿真環境會更複雜。這就會導緻,仿真訓練結果遷移到真實世界會出現偏差,這也是目前整個行業面臨的挑戰。

钛媒體APP曾獨家獲悉,星動紀元已經将Humanoid-Gym訓練架構進行開源。Humanoid-Gym開源後,使用者可以借助該架構通過sim-to-sim轉換接口,在更高精度的仿真環境Mujoco中進行機器人訓練驗證,繼而提升sim-to-real(仿真到現實)轉換的效率和成功率。

而除去大腦和小腦的訓練之外,人形機器人能否走向通用的最後一道門檻,則是本體是否可以完全承接軟體算法傳遞的動作指令。

“人形機器人的硬體技術産品主要圍繞傳感器、執行器和驅動器、能源管理及新型材料等開展工作。”

IDC中國研究經理李君蘭對钛媒體APP表示,目前,盡管已有多種傳感器被應用于人形機器人,但在精度、響應速度和內建度方面仍有提升空間。同時,人形機器人的能量消耗較大,高能效的能源動力管理和儲能技術也是一個重要挑戰。

“視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他次元的感覺能力,今天的機器人都是欠缺的。”顔黔杭稱,比如觸覺、力覺的傳感器有很多,但現在目前并沒有在機器人領域普及,主要原因是這些傳感器內建度低、價格很貴,體積相對與人形機器人來說也太大。

也正是因為種種方面的掣肘,人形機器人的通用之路變得更加漫長。

更現實的當下,有可能的未來

當人形機器人的“通用時刻”還未到來時,如何活下去,成為了創業公司最真實的現實處境。

“我們公司商業化上的政策就是四個字——沿途下蛋。”

逐際動力方面稱,具身智能(包括人形機器人、四足機器人等多種産品形态)的應用場景非常廣泛,相比人形機器人,四足機器人的商業化落地能力會更強。而後者,則是逐際動力需要下的蛋——依靠四足機器人成熟的移動能力,去實作産品商業化落地。

目前,逐際動力産品包括人形機器人CL1,雙點足機器人P1以及四(輪)足機器人W1。其中,雙點足機器人P1以及四(輪)足機器人W1落地應用聚焦在工業巡檢、物流配送、特種作業等領域。

人形機器人:通用之戰和未解之題 | 钛媒體深度

圖檔來源:逐際動力官方

同樣的,成立更早的宇樹科技的主要營收也來自于四足機器人。這也是宇樹科技創立之初發力的業務方向,目前已經有Go2、B2、Aliengo等多個産品。公開資料顯示,目前宇樹科技的四足機器人産品占全球出貨量的60%以上,處于全球曆年銷量領先的位置。

星動紀元方面則表示,汽車和消費電子的細分場景,比如,工廠巡檢、汽車總裝産線的物流部分,是公司目前探索的商業化方向。同時,類似于商場迎賓等服務性質的工作,也存在商業化的可能。

“當然,對于人形機器人的創業公司而言,融資肯定是必須的。”星動紀元聯合創始人席悅對钛媒體APP表示,因為人形機器人這個行業還太早期,技術門檻更高、研發周期相對來說也更長,早期肯定需要融資才能活下去。

事實上,人形機器人行業出現的此刻,也是國内自動駕駛行業經曆的過去。

2017-2018年間,國内開始湧現大批的自動駕駛創業公司,并吸引了大量的風險投資機構進場。與人形機器人類似,自動駕駛領域也需要長周期的技術開發,是以在早期對于投資機構的依賴度很強。但很快,随着投資熱潮的褪去,自動駕駛公司的商業化能力開始受到質疑。再之後,就是大批的自動駕駛團隊解散、裁員,甚至是對簿公堂。

“從技術門檻、創始團隊和行業影響力等方面來看,人形機器人和自動駕駛的确非常像。但是,這一輪人形機器人公司的估值普遍沒有上一輪自動駕駛公司的估值高。”

一位同時在自動駕駛和人形機器人領域工作過的業内人士表示,這是一件好事,大家不用一味隻去追求公司估值,而忽略了商業化。“人形機器人這一波的創業者,部分已經看到了上一波自動駕駛發展中的問題和風險,是以會對産品商業化的認知程度更高。”

除此之外,該人士還表示自動駕駛的創業潮中,大家習慣于單打獨鬥。但在人形機器人産業中,更強調的是合作。比如,目前北京、上海、深圳都由政府相關部門牽頭,成立了人形機器人的創新中心。由政府部門出面去拉通産業鍊的上下遊,有做技術的,做機器人關節的,做商業化落地的。“大家形成一個實體,上下遊公司均是股東機關,可以整個鍊條打通。”

人形機器人:通用之戰和未解之題 | 钛媒體深度

通用人形機器人母平台“天工” 圖檔來源:官方

以北京為例,4月27日,北京人形機器人創新中心在北京經開區釋出全球首個純電驅拟人奔跑的全尺寸人形機器人“天工”,能以6公裡/小時的速度穩定奔跑。“天工”身高163cm,輕量化體重達43kg,機器人配備多個視覺感覺傳感器,搭載了每秒550萬億次操作算力、高精度的慣性測量單元(IMU)和3D視覺傳感器。

釋出會上,創新中心總經理熊友軍表示,為解決人形機器人行業通用問題,推動産業整體發展,北京人形機器人創新中心緻力于行業關鍵共性核心技術研發,打造軟、硬兩個通用母平台。目前,已成功研發出通用人形機器人母平台“天工”。

北京經濟技術開發區相關負責人介紹,作為北京市重要的機器人産業集聚地,北京亦莊目前彙集機器人生态企業110家,形成覆寫核心零部件、整機到應用的機器人全産業鍊體系。在人形機器人領域,不僅有小米、優必選等人形機器人頭部企業落地發展,還有高精密減速器、伺服系統等人形機器人零部件産品。

而在機器學習的軟體算法層面,特斯拉FSD(完全自動駕駛)的成功,也讓人形機器人行業看到了有可能的未來。

在特斯拉最新的FSD V12版本中,FSD Beta更名為FSD (Supervised)。根據特斯拉官方的說法,在車主的監督下,最新版FSD Supervised幾乎可以在任何地方駕駛特斯拉。

在FSD V12之前,特斯拉的自動駕駛方案一直依賴于規則判斷,任何駕駛行為的背後都有代碼作為支撐,FSD V11 C++代碼多達30多萬行。而在FSD V12版本版本中,依賴于手動編碼規則的方案被徹底抛棄,轉而全面采用端到端的神經網絡AI系統,代碼行業縮減到隻有3000行。

人形機器人:通用之戰和未解之題 | 钛媒體深度

特斯拉FSD的端到端方案,本質上是完全基于資料驅動。通過将上千萬個甚至上億個人類駕駛視訊的高品質資料,壓縮到了大模型中,特斯拉FSD就可以AI的方式去思考——遇到場景直接輸入傳感器資料,輸出轉向、制動和加速信号,而且這個過程中沒有任何編碼。

據特斯拉2022年10月公布的資訊顯示,Optimus人形機器人使用與特斯拉汽車相同的完全自動駕駛(FSD)電腦,以及Autopilot相關神經網絡技術。

這也就意味着,人形機器人完全可以利用FSD同樣的訓練方式,走向通用之路。據王興興介紹,目前宇樹科技人形機器人,從行走奔跑到舞蹈空翻等,已經完全采用類似端到端的解決方案,從視覺感覺到腿部執行,一個模型就可以實作,沒有任何中間過程和編碼。

“人形機器人硬體部分的成熟,隻是時間問題。最重要的,還是通用人形機器人的AI基礎大模型。”王興興稱,樂觀的估計,基礎大模型的突破可能會在明年年底前發生。但是,也有可能不會發生。“有時候技術的突破,需要看全球人類的運氣。就像當年如果沒有愛因斯坦,他的理論大機率也會有人發現,隻不過會晚個幾年到幾十年。” (本文首發于钛媒體APP,作者 | 饒翔宇 編輯 | 鐘毅)

繼續閱讀