天天看點

具身智能?它為何能賦予機器人靈魂

AI發展的下一站在哪裡?“算力霸主”英偉達創始人兼首席執行官黃仁勳給出了答案:具身智能/具身人工智能。

具身智能?它為何能賦予機器人靈魂

01

特斯拉與英偉達站台,“具身智能”爆火

兩大科技巨頭齊齊站台,“具身智能”成為繼ChatGPT後最火爆的存在。日前,Optimus和NVIDIAVIMA在海外科技巨頭布局人形機器人賽道掀起 “人形機器人”浪潮。

5月16日,特斯拉2023股東大會展示了Optimus人形機器人最新進展,包括撿起物品、環境發現和記憶,基于AI模仿人類動作,能完成分類物品的複雜任務。從視訊中能夠看到,特斯拉機器人取得全方位進展,運動控制能力持續進化,AI能力大幅提升。

5月17日,NVIDIA創始人黃仁勳在ITF2023年半導體大會上向觀衆介紹了多模态人工智能技術NVIDIAVIMA,VIMA能根據視覺、文本提示執行任務。除此之外,其他海外科技巨頭也加快布局人形機器人,谷歌PaLM-E作為多模态具身視覺語言模型,不僅能夠了解圖像,還能了解、生成語言,執行各種機器人指令而無需重新訓練;微軟持續探索将ChatGPT擴充到機器人領域,進而運用語言直覺控制機械臂、無人機等,而早在3月28日,Ope-nAI領投挪威機器人制造商1XTechnolo-giesA2輪投資,以創造具有實際應用價值的機器人。

具身智能?它為何能賦予機器人靈魂

NVIDIA創始人黃仁勳

NVIDIA創始人黃仁勳認為,下一波人工智能浪潮是“具身人工智能”,即能夠了解、推理并與實體世界互動的智能系統;不同于傳統機器人僅具有“實體”執行力,大模型可通過将圖像、文字、具身資料聯合訓練,引入多模态輸入,進而提升大模型和環境的互動能力和學習能力,為機器人注入了“靈魂”。

02

何為“具身智能”,賦予機器人靈魂

具身智能指的是智能體通過與環境産生互動後,通過自身的學習,産生對于客觀世界的了解和改造能力。換言之,一個具身智能機器人需要:首先聽懂人類語言,之後分解任務、規劃子任務,移動中識别物體,與環境互動,最終完成相應任務。正如斯坦福大學計算機科學教授李飛飛所說,“具身的含義不是身體本身,而是與環境互動以及在環境中做事的整體需求和功能。”

“具身智能”最初可追溯到1950年,當時圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念。但在之後的幾十年中,具身智能都沒有取得特别顯著的進展,大多數機器人的行動依舊仰賴人類的手寫指令與代碼。

這也是為何上文那個谷歌“史上最大‘通才’AI模型”能引起業内轟動——它無需預先處理的場景,是以也不用人類對相關資料進行預處理或注釋。隻需要一句簡單的指令,便可實作更為自主的機器人控制。更重要的是,PaLM-E生成的行動計劃還具有“彈性”,即可對周圍環境變化做出相應反應。

具身智能?它為何能賦予機器人靈魂

谷歌PaLM-E以多模态為主要特征,切實地與實體世界産生互動

從這點來看,“具身”所指代的,便是客觀實體存在的“身體”,對于身體所承載的“認知” 帶來的各種影響。認知不能脫離身體單獨存在。與"具身 相對的概念是“離身”(Disembodiment),指的是認知與身體解耦。

“智能”粗略定義為智能體(生物或機械)與環境互動後,通過自身的學習,産生對于客觀世界的了解和改造能力。具身智能機器人,可以簡單了解為各種不同形态的機器人,讓它們在真實的實體環境下執行各種各樣的任務,來完成人工智能的進化過程。這種“具身智能”的進化,是純軟體系統當中的進化替代不了的。

最新的人工智能研究發現,智能生物的智能化程度,和它的身體結構之間,存在很強的正相關性。也就是說,對于智能生物來說,身體不是一部等待加載“智能算法”的機器,而是身體本身就參與了算法的進化。今天地球上所有的智力活動,都是生物通過自己的身體,直直切切地與環境産生交與之後,同時自身的學習和進化所遺留下來的“智力遺産”。這個過程,已經被大型的計算機模拟實驗所證明。

具身智能?它為何能賦予機器人靈魂

而在具體應用中以掃地機器人為例,有了具身智能的掃地機器人,能夠自我學習之後,把以前它掃不到掃不幹淨的地方,慢慢找到好的方法掃得更有效率和成果,因為你的掃在機在更熟悉自己身體的情況下,慢慢變聰明了。還有你如果用路徑規劃,其被你點播得多了自己也更熟悉這個環境,下次自己可能就能找到一條更有效率的行動軌迹了,并且真正做到無死角,隻要它能進去就能掃好。整個過程如同一個老家政,來你家十幾次後幹得那樣,明顯讓使用者感到有進步。

如果将AI其具象化,給這個大腦賦予“身體”,那麼就會是另一種形态,比如AI+汽車=智能汽車,AI+機器人=具身智能機器人,再或者,在未來某個時點AI+汽車+機器人=變形金剛也是有可能的。随着技術更疊,具身智能的出現會持續引領“大模型+機器人”潮流,而馬斯克推出的人形機器人Optimus無疑是其中極具代表性的作品。

現有機器人的學習模式為“旁觀型學習”,訓練資料來自網際網路,隻能學到資料中心的固定模式而非現實世界的第一人稱視角,無法從真實世界中直接學習,也無法适應真實的世界。具身智能是通往通用人工智能的關鍵鑰匙,賦予機器人實踐學習的能力,而實踐性學習使得機器人像人一樣,通過實體身體與環境的互動來學習,主動感覺或通過做任務的方式來感覺世界,具身智能機器人将是人工智能的終極形态。

03

科技巨頭各展所長

探尋具身智能的實作路徑

對于極具潛力的成長潛力的居身智能市場,各大科技巨頭也是鉚足了勁兒想要争奪更多市場話語權。除了前面提到特斯拉與英偉達外,目前谷歌、微軟等技術團隊、衆多頂尖研究院所和高校已探索具身智能的發展落地。

微軟,ChatGPT for Robotics:在微軟研究院釋出“ChatGPT for Robotics” 文章中,研究者使用ChatGPT大型語言模型 (LLM) 将人的語言快速轉換為機器人的高層控制代碼,進而控制機械臂、無人機等機器人,ChatGPT帶來了一種新的機器人應用範例。

具身智能?它為何能賦予機器人靈魂

微軟ChatGPT for Robotics研究者使用ChatGPT大型語言模型 (LLM) 将人的語言快速轉換為機器人的高層控制代碼

在Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT生成機器人的高層控制代碼,進而可以通過自然語言和ChatGPT交流,使用 ChatGPT來控制機械臂、無人機、移動機器人等機器人。

目前實驗已經能夠通過給 ChatGPT的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”“有糖和紅色标志的東西”(可樂),以及一面供無人機自拍的鏡子。

谷歌,視覺語言大模型PaLM-E:今年3月,谷歌與德國柏林工業大學的一組人工智能研究人員公布了視覺語言模型PaLM-E(Pathways Language Model with Embodied),內建了5400億參數量的PaLM模型和220億參數量的視覺ViT(Vison Transformer)模型,總參數量達到5620億,是目前已知的最大的視覺-語言模型。

具身智能?它為何能賦予機器人靈魂

谷歌PaLM-E是目前已知的最大的視覺-語言模型

PaLM-E模型具備多模态能力,能夠觀察實體實體世界的資訊,由大模型進行分析了解,再将決策結果回報至實體世界,由此溝通實體和虛拟兩個世界。該模型在多任務中表現了強大的感覺能力,機器人可以在要求下從抽屜裡拿東西,然後走過去遞給人;研究人員要求機器人将“綠色色塊推到烏龜旁邊”的指令,即便機器人之前沒有見過這隻烏龜擺件,也能完成任務。

同時,PaLM-E通過分析來自機器人攝像頭的資料來實作對進階指令的執行,而無需對場景進行預處理,這消除了人類對資料進行預處理或注釋的需要,并允許更自主的機器人控制。

Meta,SAM分割模型:2023年4月6日,Meta 推出一個AI模型 Segment Anything Model(SAM分割一切模型),能夠根據文本指令等方式實作圖像分割。SAM 任務目的:零樣本( zero-shot)或者簡單 prompt 下,就對任意圖檔進行精細分割。

SAM證明,多種多樣的分割任務是可以被一個通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點,我們期待一個模型可以無監督完成分割、檢測、識别、跟蹤等所有 CV 任務,屆時視覺大模型應用會得到極大發展。

具身智能?它為何能賦予機器人靈魂

伯克利的LM-Nav模型:UC Berkeley、波蘭華沙大學聯合谷歌機器人團隊發表論文《LM-Nav:具有大型預訓練語言、視覺和動作模型的機器人導航系統》,該模型結合了三種預訓練模型,進而無需使用者注釋即可執行自然語言指令。

其中,大語言模型(LLM)用于完成自然語言處理的任務;視覺和語言模型(VLM )将圖像和文本資訊進行關聯,即使用者指令和機器人視覺感覺的外部環境進行關聯;視覺導航模型(VNM)用于從其觀察到的資訊中直接進行導航将圖像和将要執行的任務按時間進行關聯。

04

政策驅動,AI+機器人快速落地

人形機器人應用需求大,在智能制造、智能服務、人機協作等方面都将有廣闊的應用場景。特斯拉股東大會上,馬斯克稱特斯拉的長期價值将主要來自人形機器人,并預測人形機器人需求将達100億台,遠超汽車,如果機器人與人的比例為2:1,需求将達到200億台。

據麥肯錫報告,到2030年,全球約有4億個工作崗位将被自動化機器人取代,按20%滲透率和15萬-20萬人形機器人單價來測算,全球人形機器人市場空間可達到12萬億—16萬億元。中性預測下,2030年全球人形機器人市場規模855億元,2021—2030年市場規模CAGR可達到71%。根據中國電子學會資料,國内機器人2024年有望達251億美元市場規模,2020—2024年CAGR約22%。

面對如此高成長的市場,大陸釋出了不少行業扶持政策。2023年1月,工信部等十七部門釋出《“機器人+”應用行動實施方案》,該政策明晰了“十四五”期間機器人行業的發展目标。5月19日,科技部部長王志剛在2023第七屆世界智能大會開幕式暨創新發展高峰會上表示,将加大人工智能基礎理論和前沿技術研釋出局,打造一批人工智能區域高地和技術平台。

此外,地方政府出台具體行動方案,落實頂層設計。4月下旬以來,北京市印發《北京市機器人産業創新發展行動方案(2023—2025年)(征求意見稿)》,明确指出,成立人形機器人産業開放聯盟,到2025年,建成人形機器人通用行為控制大模型服務開發平台、共性技術服務平台、後陸續印發《北京市促進通用人工智能創新發展的若幹措施(2023—2025年)(征求意見稿)》和《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023—2025年)》,以推動人工智能發展取得變革性、颠覆性突破。

而在諸多利好政策的推動下,整個具身智能領域也有望進入爆發式發展階段。