天天看點

借助生成式AI,機器人也将迎來“iPhone時刻”

作者:電子工程世界

最近爆火的低成本機器人系統Mobile ALOHA火出了圈,再次重新整理了對機器人的關注,也讓市場對于機器人有了更多的預期。

機器人是一項綜合性很強的領域,它涵蓋了機械、電子、計算機、感覺等多個學科。這種跨學科的特點使得機器人技術的發展需要多個領域的技術共同進步,才能實作整體上的突破。是以,機器人技術的發展可能會受到其中某個領域技術瓶頸的制約。

不過近年來,随着資訊技術的發展,機器人跨學科導入的速度越來越快。比如圖像識别,視覺處理,語音識别等技術,都已經被機器人行業快速采用。

2023年,大語言模型(LLM)無疑是最耀眼的一項技術,将LLM從雲移植到邊緣的程序也在加速中,AIPC,AI手機都已經出現。而現在,嵌入式行業也正在迎來AI的新時代。

NVIDIA 嵌入式和邊緣計算副總裁 Deepu Talla日前在CES上,發表了關于融合 AI 與機器人技術的演講。

Talla 預測,生成式 AI 的影響将超越文本和圖像生成,進入到家庭和辦公室、農場和工廠、醫院和實驗室中。其關鍵在于,類似于人類大腦語言中心的大語言模型(LLM),使機器人能夠更自然地了解和響應人類指令。

“人工智能驅動的自主機器人越來越多地用于提高效率、降低成本和解決勞動力短缺問題。”Talla說道。

借助生成式AI,機器人也将迎來“iPhone時刻”

NVIDIA 嵌入式和邊緣計算副總裁 Deepu Talla

生成式AI能為機器人行業帶來什麼

生成式AI對于機器人行業帶來的将是天翻地覆的改變,這種自然的互動會讓機器人變得更易用,更高效以及更可信賴。

波士頓動力把ChatGPT裝在了機器狗上面,支援各類人機互動,充當起導遊并引領客人參觀公司各種設施。

借助生成式AI,機器人也将迎來“iPhone時刻”

波士頓動力的機器狗

Collaborative Robotics正開發一種協作機器人,這種機器人設計用于在人類周圍進行操作。該公司表示,其系統旨在自動執行在倉庫等場所移動物品的任務,能夠搬運箱子、提包和手推車。許多公司已經在其物流設施内采用了機器人來自動移動貨物。然而,任務的更複雜部分仍然需要人工介入。Collaborative Robotics表示,他們正在設計的協作機器人,能夠“端到端”地完成這類搬運任務,無需人工幹預。這其中一項關鍵名額就是能夠利用LLM實作語義了解。

人工智能揀選機器人Covariant公司創始人Peter Chen去年就發表了“AI機器人的GPT時刻即将到來”的文章,Chen指出“使 GPT 能夠看到、思考甚至說話的核心技術也使機器能夠看到、思考和行動。由基礎模型驅動的機器人可以了解其實體環境,做出明智的決策,并根據不斷變化的環境調整其行為。”

“機器人 GPT”的建構方式與 GPT 相同——為一場革命奠定基礎,這場革命将再次重新定義我們所知道的人工智能。

Sanctuary Cognitive公司開發的Phoenix人形機器人,其特别之處不僅在于它的能力,更在于它的認知能力。這款機器人配備了專為類人動物設計的綜合認知架構和軟體,能夠了解自然語言指令并根據指令執行操作,類似于人類員工遵循口頭訓示的方式。Phoenix 的認知架構包括推理、任務和行動,可以確定決策過程的完全透明和問責制。它結合了符号和邏輯推理,并采用了大型語言模型,包括 OpenAI LP 的 ChatGPT,以提供廣泛的通用知識和特定領域的知識。依靠深度學習和強化學習技術,Phoenix 可以表現出自主的行為和目标尋求行為。深度學習使得機器人能夠從資料中提取模式,而強化學習則讓機器人可以通過反複試驗學習執行不同任務的最佳政策。

宇樹科技也于去年推出基于大模型GPT賦能的全新四足機器人新品Unitree Go2。

Agility Robotics、NTT 和其他公司正在将生成式 AI 整合到他們的機器人中,以幫助了解文本或語音指令。追覓科技的機器人吸塵器,正在由生成式 AI 模型建立的模拟生活空間中接受訓練。Electric Sheep則正在開發一種利用生成式AI的自動割草機。

這些公司都是NVIDIA的合作夥伴,Talla表示:“這一切都是水到渠成,有越來越多的合作夥伴正在使用由 GPU 加速的大語言模型,為各類機器帶來前所未有的智能和适應能力。”

NVIDIA加速機器人行業利用生成式AI

NVIDIA Isaac 和 Jetson 平台等 NVIDIA 技術能夠為 AI 機器人的開發和部署提供助力,被超過 120 萬名開發人員和 10,000 名客戶和合作夥伴所依賴。

其中的許多企業都參加了本周的 CES,包括亞德諾半導體、Aurora Labs、Canonical、追覓創新科技、DriveU、e-con Systems 、Ecotron、Enchanted Tools、GlüxKind、禾賽科技、Leopard Imaging、九号公司(未岚大陸(北京)科技有限公司)、Nodar、奧比中光、QT Group、速騰聚創、Spartan Radar、TDK、Telit、宇樹科技、Voyant Photonics 和一徑科技等。

Talla 在演講中展示了将 AI 部署到機器人技術中所必需的雙計算機模型(如下),展現出 NVIDIA 在 AI 開發和應用方面的全面性。

借助生成式AI,機器人也将迎來“iPhone時刻”

第一台計算機被稱為“AI 工廠”,是建立和不斷改進 AI 模型的核心。

AI 工廠使用了 NVIDIA 資料中心計算基礎設施以及 NVIDIA AI 和 NVIDIA Omniverse 平台,可以仿真和訓練 AI 模型。

第二台計算機代表機器人的運作環境。

運作環境根據應用的不同而有所變化,比如可以是雲或資料中心;對于半導體制造中的缺陷檢測等任務則是本地伺服器;配備多個傳感器和攝像頭的自主機器也可能成為運作環境。

Talla 還重點介紹了 LLM 在打破技術壁壘方面的作用。LLM 可以将普通使用者變成技術藝術家,能夠建立複雜機器人工作單元或整個倉庫仿真。

借助 NVIDIA Picasso 等生成式 AI 工具,使用者可以根據簡單的文字提示來生成逼真的 3D 資産,并将其添加到數字場景中,以實作動态、全面的機器人訓練環境。

這一功能還可擴充到在 Omniverse 中建立多樣化且符合實體學的場景,進而加強機器人的測試和訓練,保證機器人在現實世界中的适用性。

這與生成式 AI 在重新建構機器人部署方式上的變革潛力不謀而合。

以前的機器人是為特定任務而專門制造的,而根據不同任務來修改機器人十分耗時。

Talla 還解釋道,LLM 和視覺語言模型領域的進步正在消除這一瓶頸,使我們能夠通過自然語言與機器人進行更直覺的互動。這種适應性強、能感覺周圍環境的機器将很快遍布世界各地。

“在測試或訓練機器人時,環境的多樣性對于確定機器人能夠推廣到現實世界至關重要,類似 ChatGPT 的工具允許使用者在幾分鐘而不是幾天内建立數千個準确的機器人場景。”

寫在最後

去年十月,NVIDIA公布了一個名為 Eureka 的 AI 系統,該系統以 OpenAI 的 GPT-4 為基礎,能夠讓機器人執行例如“轉筆”、“開抽屜”、“拿剪刀”、“雙手互傳球”等 30 多種複雜動作。據報道,Eureka的獎勵計劃促進了機器人的試錯學習,在80%以上的任務中超過了人類編寫的獎勵計劃。英偉達團隊表示,這使機器人的性能提高了50%以上。這些結果是由于人工智能代理利用OpenAI的GPT-4和生成式人工智能來編寫軟體代碼,在強化學習過程中獎勵機器人。

ChatGPT證明,大模型是能夠讓計算機了解并表現出人類的思維及判斷力,也正如此大模型可以變革機器人行業,包括開發及使用者體驗等全方位的提升。

在今年CES上,我們也看到諸多生成式AI與機器人融合的案例,機器人的“iPhone”時代或許正是此時。

“這種适應性強、能感覺周圍環境的機器将很快遍布世界各地。”Talla說道。

繼續閱讀