天天看點

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

近日,關于達闼機器人大幅裁員的消息在各大社群流傳,不少言論曝出該公司可能存在嚴重的資金鍊斷裂風險。

達闼機器人作為機器人業界老牌的人形機器人與服務機器人企業,曾經有過許多輝煌的曆史,技術實力位于人形機器人行業前列。其是否存在資金與融資問題可能依然需要時間檢驗,但在技術上,達闼目前的産品能力與技術實作方法,依然超越大多數PPT公司,值得關注和學習。

▍強大的RobotGPT

6月達闼全棧自研人形雙足機器人XR4“七仙女”加速進化,但達闼更強的能力在于系統架構。今年開年,機器人多模态具身大模型算法RobotGPT正式通過了國家網際網路資訊辦公室深度合成服務算法備案,此消息在國内外引起較大轟動。大陸政府對人工智能技術的關注度一直處于升溫狀态,特别是對于生成式算法的法規标準化,步伐正在逐漸加快。2022年12月,國家網信辦、工信部、公安部聯合出台了《網際網路資訊服務深度合成管理規定》,對深度合成技術作出規範,并規定從2023年1月10日起實施。這也是大陸首部針對深度合成服務的專門性規章。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

RobotGPT多模态具身大模型作為國内首個通過備案的機器人具身智能大模型,标志着大陸在機器人人工智能和算法落地層面邁出一大步。作為國内首家在具身智能領域推出大模型的科技公司,不可否認,達闼機器人有着深厚的技術積累,在自然語言處理、機器學習等領域取得了卓越的成果。

就像是網站沒有備案無法對外營運一樣,根據《網際網路資訊服務深度合成管理規定》,備案意味着該大模型正式得到國家層面的測試認可,并允許對外提供服務。在國内,這也是目前大模型能夠上線提供外部服務的唯一管道,RobotGPT是國内首個能适用于人形等各類機器人産品的具身大模型。此前人工智能大會,多台人形機器人所采用的正是達闼該套系統架構,标志着其系統級潛力。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

具身智能是能了解、推理、并與實體世界互動的智能系統,是人工智能的下一個浪潮。具身智能中的智能體要以第一人稱身份融入周邊環境,擁有感覺、認知、決策和行動的全面能力,像人類一樣自主處理任務。而大模型的“通用認知性”可使具身智能機器人具備強大的特征學習和泛化能力,通過強大的雲端計算支援,應對複雜任務及決策,進一步實作對任務場景的拆解和思維鍊能力,是以,大模型是具身智能機器人的不可或缺之選。

RobotGPT标志着從資料驅動到真正意義上“有形”(embodied)智能轉變——即從傳統桌面軟體到更加移動、互動性強且接近生命體驗方式運作方式轉變。這就是RobotGPT多模态具身大模型所做的工作。

對比名單上的多個大模型,我們采訪部分專家,總結了這個适用于機器人的具身大模型一些亮眼的獨特點和優越性。簡單來說,RobotGPT并非ChatGPT那種單一的大語言模型,該技術背後還涵蓋或者說融合着幾個關鍵模型,分别是大語言模型(LLM)、開放域檢測視覺大模型(VLM)、機器人導航與抓取大模型(VNM)、基于深度強化學習專家小模型(MoE)。

大模型對于機器人有點像是大腦,這四個模型每一個都是學術界和産業界的前沿領域,而在我們看來,達闼更是将這四個大腦模型疊加整合,并在RobotGPT又形成了一套大腦+小腦+數字孿生的技術中間層架構。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

▍問題與解決

有專家認為,達闼之是以要組合多個大模型,是因為如果機器人想要成為繼電腦、智能手機之後的第三台實體世界“計算機”,就一定需要具備多模态感覺能力,一個大模型遠遠不夠。

例如人類家居等許多場景中,單一模型就很難實作所有工作。尤其是機器人這樣一個複雜技術載體,想要真正自主化完成多任務,并逐漸優化适應性和執行效率,最終将任務執行成功率提升到人類能夠接受的範疇,就需要有一種更加綜合解決問題的能力。而這些能力其實又可以分解為視覺、聽覺、觸覺、進階認知、自主決策以及複雜動作的規劃能力,進而使其應對不斷變化的任務需求,最終接近于人一樣的“聰明”。

但是各個大模型的适用範圍有所差異。而且由于大模型基本需要借助多個高性能、多核心CPU進行大量資料訓練,這對于高性能GPU、大容量高速存儲記憶體、高速網絡都提出了非常高的要求。這也使得每個大模型非常依賴算力去歸置資訊,中國目前約有210個大模型進行着飽和式研發,備援比較嚴重。

RobotGPT的做法并不是直接殺入大模型,而是在多個分布式大模型基礎架構上,提出了一種借助虛拟空間歸置資訊的方式。這個方法簡單來說,是建立一套雲網端協同架構的作業系統,結合數字孿生技術,在雲端智能架構下,可以反複調用多個成熟大模型,累加多模态的資料,并根據邏輯推理進行端到端的虛拟空間映射和模組化。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

這個步驟相當于在不同模型之間搭建了一個資訊處理和整合的橋梁,雙向進行自然語言與動作模型的端到端轉化。如果更簡單了解就是,機器人小腦采集現實資料形成指令串-即時上雲仿真模組化形成結構化場景-大模型計算場景需求并模拟得出結果-即時回報給機器人進行實際動作執行。

能力的多樣化是這套大模型架構帶來的顯著特征。這種內建化設計使得RobotGPT不隻是一個簡單地回答問題或者進行文本創作的AI系統,它實際上已經跨越到讓機器人可以在真實世界中進行任務分解、自主導航、抓取物體等操作。當然,這種架構一方面可以減少對于算力的依賴,另一方面也展現了非常強的适應性和多任務處理能力,使得達闼這套大模型架構通用性非常強,可以說以更巧妙的路徑實作了四兩撥千斤的效果。

多模态機器人通用性也是這套大模型的獨特優勢。例如輪式和人形機器人,其實都可以采用這套大模型。因為達闼RobotGPT這套大模型架構下,首先會幫助機器人建立相應的數字孿生,利用深度強化學習技術來處理并整合來自各種傳感器(如攝像頭、麥克風)收集到的多種類型資訊,并結合預訓練大模型所提供的廣泛知識庫來做出決策。

随着機器人各類傳感器采取即時性資料并通過預處理子產品進行結構化,在數字孿生的基礎上派生不同的基礎模型,形成像是“遊戲世界”一樣的數字中間層。随後,RobotGPT基于資料在雲端調用不同大模型進行訓練和決策,決策結果再由數字孿生根據實體機器人能力特性進行适配以及行為模拟,最後派生生成出相應形态的肢體動作,這使得該模型能夠實作對不同機器人機型的統一控制,同時限定條件任務下,執行成功率超過97%。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

▍模型疊代路徑解析

有專家表示,其實在具身智能概念提出之前,達闼機器人就曾提出,機器人本體未來需要用通用具身人工智能賦能的概念,并在此基礎上提出了雲網端的思路和架構。但在GPT展現出大模型強大的及時處理能力和湧現能力之前,傳統的研究思路依然是小模型先驗知識的泛化,讓機器人隻限定于一類或者某幾種特定工作,雲網端架構獨特的端到端決策優越性并不明顯。直到如今機器人結合了多個大模型以及5G通信能力,通過思維鍊拆解,即時傳輸資料量壓力減小,對于任務資訊的處理能力快速提升,這套通用具身人工智能的技術架構效果才得以真正展現。

因為傳統小模型主要是針對場景處理較少的資料和動作,但大模型的差異在于新并行架構下,能通過大量的資料訓練進而産生一定的湧現能力,是以展現出了進階認知和決策能力。在此基礎上,是以機器人能做到複雜動作執行,場景通用性、方法性、魯棒性也會更強,進而這能夠使機器人處理複雜任務時更高效、更靈活,更好地适應周邊環境和複雜工藝需求。尤其在多模态的複雜環境下,機器人需要處理的資料量呈幾何暴漲,機器人的及時感覺和決策能力就尤為重要。

當然,達闼這套大模型架構也經曆了多個疊代過程。達闼最初的基礎語音大模型主要是為了解決一些語言的了解和語言層面的生成能力,随後達闼發現,機器人需要更多與環境互動以完成任務,是以對于環境的感覺和了解就顯得尤為重要。為此,達闼又開始把一些視覺模型的資料注入大模型中來,進而提升了機器視覺了解和生成能力,幫助機器人能夠更好地适應環境變化。

在機器人能夠聽見、看見後,想要執行動作并在某些固定場景的任務處理上有着強大的能力,就需要借助導航和抓取的大模型以及針對特定場景、任務的專家模型。為此,達闼通過強化學習的方式,在海睿雙系統裡将多個場景資料融入基礎技術模型,進而增強了機器人對于特定任務的了解和執行能力。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

由于機器人所在的實體世界資料樣本很難像語言大模型一樣輕松擷取,為了提高資訊的準确性,達闼又後續在落地的過程中,嘗試将一些感覺視覺專家小模型技術留在本體,以便在小腦上實作快速的基礎感覺、跟蹤,進而實作目标檢測。随後,其結果再進入雲端結合大模型做相應場景的了解、判斷,深化動作語義層面的解釋,通過這種雲網端的協同,其準确度實作了疊加。

如今,RobotGPT多模态具身大模型已經具有進階互動生成能力。其不僅整合了強大的語言生成和處理功能,還融入了情感分析、視覺語言導航、視覺語言操作、表情動作生成、自主行為決策等多模态輸入輸出功能。

據悉,這種專家模型+多個技術模型融合後,參數已經接近千億水準,由于RobotGPT的推理能力不僅僅是基于預訓練的知識,還能夠利用曆史經驗進行适應性學習。這樣一來,它不僅僅可以根據使用者給出的指令或者遇到新情境時快速調整行為政策,在多個模型資訊切口、各個模态資料瞬間對齊的過程中,還使得RobotGPT這一模型也水到渠成展現出了優越的多模态感覺和了解泛化能力,實作了跨模态的領先性。

▍技術落地與拓展的未來

有消息表明,目前,RobotGPT多模态具身大模型以其強大的多模态資料處理整合能力,不僅讓機器人在完成複雜任務上表現出色,更在感覺、認知、決策和執行多功能複雜任務的過程中展現出進階工作能力,已經應用于電力、醫療保健、金融保險以及交通樞紐等十餘個重點行業,并支援百餘種客戶場景應用,受到了國内外的高度評價。

四個大模型疊加,機器人進入現實将像“打遊戲”一樣簡單?

例如在電力領域,基于RobotGPT多模态大模型,機器人能更快利用行業知識和服務資料進行調優,形成電力行業大模型,實作垂直行業的知識問答,支援多輪對話、多模态互動、知識摘要、圖文生成、報表分析等,滿足智能客服、企業辦公等需求。

而例如在醫療健康領域,RobotGPT目前已經在部分頂級醫院的自助服務、業務查詢、病理推斷、孿生訓練等等方面實作了國内領先應用。在金融保險領域,該模型則可以通過分析客戶的語音和行為,提供更精準的風險評估和客戶服務。

還有例如在交通樞紐,如機場和地鐵,RobotGPT訓練調優生成機場、地鐵服務類大模型,滿足機場、地鐵等知識問答的同時,賦能各種類型的服務和功能機器人,完成複合型和個性化業務,提高軌道交通服務營運品質。

在人形機器人的熱浪中,挑戰和機遇必然共存。達闼等更多相關企業在未來機器人市場中穩步增長,才能更好加速推動相關大模型産品的落地實施速度,推動“機器人+”千行百業快速向前發展。達闼未來會走向哪,不妨等等時間來判斷。

繼續閱讀