編輯：編輯部

【新智元導讀】機器人的ChatGPT時刻，真來了！初創公司Figure自家機器人看了10小時視訊，學會了煮咖啡。另一邊，東京大學GPT-4加持的Alter3機器人，能夠模仿人類做出任何動作。而人類隻需發出自然語言指令即可，完全不需要程式設計！

機器人，本周果然迎來了ChatGPT時刻！

初創公司Figure，就做出了一個能學人類煮咖啡的機器人。

就在昨天，Figure創始人在社交平台上，提前預告了自家實驗室取得的重大突破。

而東京大學則讓GPT-4和仿人機器人Alter3相連。

人類隻要給出自然語言指令，GPT-4就能把這些指令轉換為可執行的代碼，讓機器人模仿人類做出任何動作，包括彈吉他、自拍、扮鬼等等，甚至還能去電影院偷别人的爆米花。

心情很閑适，喝杯茶。

拿着吉他玩搖滾。

假裝我是一條蛇。

來張自拍，像網紅們一樣擺出俏皮浮誇的表情。

在電影院邊吃爆米花邊看電影，忽然發現，自己吃的是别人的爆米花，頓時尴尬地笑起來。

看人類煮咖啡10小時，學會這項技能

名叫Figure 01的這個機器人，采用的是端到端的人工智能系統。

它隻需觀察人類煮咖啡的錄像，就能在10小時内學會制作咖啡的技能。

這個機器人是通過神經網絡來處理和分析視訊資料的。通過觀看錄像，它能夠學會人類的動作和手勢，然後模仿這些動作，來學習制作咖啡的過程。

這個過程證明了，無需通過程式設計，機器人完全可以自主學習技能！

隻要跟它說：Figure 01，你可以幫我做一杯咖啡嗎？

它就會把咖啡膠囊放入機器内，用手按按鈕，過不了多久，一杯香氣四溢的咖啡就做好了！

這個過程中難能可貴的一點是，機器人能學習如何改正自己的錯誤，比如咖啡膠囊放得不對，它就會矯正自己。

Brett Adcock解釋了視訊資料訓練為何如此重要的原因。

之是以說這具有開創性意義，是因為如果你能獲得某個應用的人類資料（如煮咖啡、疊衣服、倉庫工作等），就可以在Figure 01的基礎上對AI系統進行端到端的訓練。

這是可以擴充到每種應用的一種方式。當機器人數量擴大時，從機器人群中收集更多資料，重新進行訓練，機器人就能實作更好的性能。

值得一提的是，許多網友對機器人沖咖啡的速度表示驚訝。官方對此回應稱，視訊并沒有加速。

東京大學的扮鬼機器人

而東京大學的這個人形機器人，之前就曾經因栩栩如生的「扮鬼」行為而出圈過。

東京大學的研究人員，把這個叫做Alter3的仿人機器人和GPT-4相連。

利用指令，它就可以完成一系列人類行為，比如彈吉他、自拍、扮鬼等等，甚至可以去電影院偷吃别人的爆米花。

這個過程中，LLM将書面指令轉換為可執行的代碼，進而讓機器人模仿出多種人類的動作。從視訊效果上看，屬實是吊打了最近風頭正勁的斯坦福家務機器人。

也就是說，Alter3之是以能戲精上身，将「鬼」模仿得如此出神入化，還是因為GPT-4的prompt給得好啊！

「0 創造恐懼的睜大眼睛的面部表情，張開嘴巴發出無聲的尖叫」，

「1 迅速向後傾斜，仿佛被突然的幻影吓了一跳」，

「2 舉起雙手，在臉上揮舞，模仿幽靈般的動作」，

「3 張大嘴巴搖頭，表現出恐懼的戲劇性反應」，

「4 将上半身從一側移動到另一側，仿佛被幽靈的存在所困擾」，

「5 雙手握在胸前，表現出極度焦慮」，

「6 眼睛從一邊瞟到另一邊，仿佛目睹了一場詭異的活動」，

「7 先前傾，然後後傾，模仿鬼魂的漂浮動作」，

「8 慢慢回到休息位置，同時保持驚恐的表情」

通過代碼，将人類動作映射到機器人身上

Alter3是怎樣使用LLM生成自發運動的呢？

具體過程，就是将GPT-4內建到了Alter3中，進而有效地将GPT-4與Alter的身體運動結合起來。

通常，低級機器人控制是依賴于硬體的，這超出了LLM語料庫的範圍，這給直接基于LLM的機器人控制帶來了挑戰。

不過，研究者在Alter3上，實作了突破——通過程式代碼，他們将人類動作的語言表達映射到機器人的身體上，這就讓直接控制變得可行了。

這種方法無需對每個身體部位進行顯式程式設計，直接就可以讓Alter3采用各種姿勢，比如自拍或扮鬼，還能随着時間的推移生成一系列動作。

這充分證明了機器人的零樣本學習能力。

甚至，口頭回報都可以調整機器人的姿勢，無需微調。

比如，用GPT-4告訴機器人，「播放金屬音樂」，它就接收到了資訊，開始有模有樣地彈起了電吉他，腦袋還跟着節奏晃動。

「0 創造一種強烈興奮的面部表情，睜大眼睛，微微張開嘴巴，露出狂野的笑容」，

「1 積極地向前傾斜，仿佛準備潛入音樂中」，

「2 模仿左手握住吉他琴頸的動作」，

「3 用右手開始彈奏空氣，仿佛在演奏沉重的即興演奏」，

「4 有節奏地上下搖晃頭部，模仿與金屬音樂相關的甩頭動作」，

「5 舉起左手，仿佛伸手去彈更高的吉他音符，眼睛鎖定在想象中的指闆上」，

「6 用右手模仿戲劇性的吉他彈奏，仿佛擊中有力的和弦」，

「7 右手在假想的吉他弦上慢慢掃過，模仿吉他獨奏」，

「8 模仿将想象中的吉他砸在地闆上的動作，展現金屬音樂的狂野精神」，

「9 逐漸恢複到休息姿勢，但保持激烈的面部表情，表現出揮之不去的興奮」

LLM把人類從疊代工作中解放出來

在LLM出現之前，為了讓機器人模仿一個人的姿勢，或者及假裝一種行為，比如端茶、下棋，研究人員必須按照一定的順序控制所有的43個軸。

這個過程中，需要人類研究員手動進行許多改進。

多虧了LLM，現在人類研究者可以從疊代的工作中解放了出來。隻要使用口頭指令，就能控制Alter3的程式了。

研究者先後應用兩個用自然語言編寫的思維鍊協定，并不需要學習過程的疊代（也就是零樣本學習）。

如圖所示，研究人員使用了以下協定。

需要注意的是，GPT-4是非确定性的（non-deterministic)，即使在$temperature=0.$時也是如此。

是以，即使輸入相同，也可以産生不同的運動模式。

使用口頭指令控制Alter3人形機器人的程式。通過使用Prompt1、2輸出python代碼，進而使用自然語言控制Alter3，這個架構是基于CoT的

語言回報

Alter3無法觀察自己的世代對任何實體過程産生的影響，這在人類意義上是非常不自然的。

是以，Alter3無法準确了解「手舉多高」等細節，也就無法相應地改進自己的動作。

通過經驗性地通過回報來開發和利用外部記憶，Alter3的身體模型可以與GPT-4內建，而無需更新其參數。

現在，Alter3可以根據人類的語言回報重寫代碼。

比如，使用者建議「自拍時手臂擡高一點」，然後Alter3就可以将修改後的動作代碼作為動作記憶存儲在資料庫中。

這樣就能確定下次生成該動作時，機器人會使用經過改進和訓練的動作。

通過這種回報，機器人就積累了有關自己身體的資訊，記憶就可以有效地充當一個身體圖示。

上圖說明了Alter3中的語言回報系統。

這個過程中，使用者會提供語言回報，來指導Alter3在每個運動分段中的調整，比如「将軸16設定為255」或「更有力地移動手臂」。

在這個過程中，使用者隻需提供口頭指令，無需重寫任何代碼，然後，Alter3就會自動修改相應的代碼。

一旦動作被完善，它就會被儲存在一個帶有描述性标簽的JSON資料庫中，例如「握住吉他」或「深思熟慮地敲擊下巴」。

對于使用prompt2生成動作，JsonToolkit有助于資料庫搜尋這些标簽，LLM會決定記憶體使用和新動作的建立。

\textbf{(b)}比較有回報和沒有回報的分數，有回報的運動比沒有回報的運動得分更高。

結果

為了量化GPT-4生成動作的能力，研究人員評估了9種不同生成動作的視訊，将其分為兩類。

第一種情況是「即時手勢」，包括「自拍」和「喝茶」等日常動作，以及「扮鬼」和「扮蛇」等模仿動作。

第二種情況是一段時間内的動作，包括更複雜的情景。就比如「在影院邊吃爆米花邊欣賞電影時，發現自己吃的其實是旁邊人的爆米花」這樣的尴尬情節，以及「在公園裡慢跑時，世界似乎在講述一個古老的生存故事，每一個腳步聲都回蕩着亘古不變的存在」這樣的情感場景。

這些動作均由GPT-4生成。提示1的溫度設定為$0.7$，提示2的溫度設定為$0.5$。受試者（$n=107$）是通過Prolific平台招募的。

他們觀看了這些視訊，并對GPT-4（gpt-4-0314）的表達能力進行了評估（評估采用5級評分法，1為最差）。

在對照組中，研究人員采用了Alter3的随機動作，并附加了由GPT-4生成的随機動作符号作為這些動作的标記。

這些貼有标記的對照視訊被巧妙地納入調查，其中3個被分散在向參與者展示的主要實驗視訊中。

為了确定對照視訊與其他視訊之間的評分是否存在顯著差異，研究團隊首先采用了弗裡德曼檢驗法（Friedman test）。結果顯示，不同視訊之間的評分存在明顯差異。使用奈曼尼檢驗（Nemenyi test）進行的進一步事後分析表明，雖然對照組視訊之間的p值沒有顯著差異，但對照組與其他視訊相比，p值明顯更小，這表明存在顯著差異（見圖）。

是以，與對照組相比，GPT-4生成的動作評分明顯更高。這表明，GPT-4生成的android動作與對照組的感覺不同。這一結果表明，該系統可以生成各種動作，從自拍、喝茶等日常動作到模仿鬼或蛇等非人類動作。

每個動作的平均評估分數

LLM的訓練包括一系列動作的語言表征。GPT-4可以将這些表征準确地映射到Alter3的身體上。

最值得注意的是，Alter3是一個與人類形态相同的仿人機器人，這使得GPT-4可以直接應用有關人類行為和動作的豐富知識。

此外，通過Alter3，LLM可以表達尴尬和喜悅等情緒。

即使在沒有明确表達情緒的文本中，LLM也能推斷出适當的情緒，并在Alter3的表現中反映出來。這種語言和非語言交流的整合可以增強與人類進行更細緻入微、更富同情心的互動的潛力。

LLM可以推動具身智能

Alter3如此高能的示範，回答了「具身智能對于LLM是否是必要的」這個問題。

首先，Alter3不需要額外的訓練就能完成許多動作。這意味着，訓練LLM的資料集已經包含了動作描述。

也就是說，Alter3可以實作零樣本學習。

此外，它還能模仿鬼魂和動物（或模仿動物的人），這一點非常驚人。

甚至，它還能了解聽到的對話内容，并通過面部表情和手勢反映出故事是悲傷還是快樂。

至此，Alter3通過LLM獲得的加持，已經非常明顯了。

參考資料：

https://tnoinkwms.github.io/ALTER-LLM/?continueFlag=bcae05c73de8a193cf0ec0b4e1046f97

https://twitter.com/Figure_robot/status/1743985067989352827?t=lMaAK1frDFSgyjuaE5KyOw&s=19

GPT-4加持Alter3機器人扮鬼玩吉他，Figure 01看視訊學會煮咖啡

繼續閱讀

以AI+産品矩陣賦能千行百業，普渡機器人召開2024年新品釋出會

揍機器人，吸金10億！最“暴躁”老闆，為何總被吹爆？

C視訊｜金陽第九屆索瑪花文化旅遊節開幕，十萬畝索瑪花海助力文旅強縣

雷軍模仿者“雷民”賬号更名并删除模仿視訊，網友質疑侵權，律師解讀争議

向佐曬視訊回應向太催生三胎，客廳放充氣滑梯，郭碧婷素顔陪兒女

3999的雲鲸J4掃拖一體機器人：近日實付最低可達3199元

戴28萬表擋道後續！男子将起訴，完整視訊曝光，奧迪女車主要慌了

當520遇上小滿，來青溪老街進行一場咖啡之旅，邂逅你的浪漫時光！

塑造未來能力：機器人和自主系統

變态男砸毀黃家駒墓拍下短視訊，被抓後身份黑曆史被扒可氣又無奈

從商用服務到工業服務，普渡機器人先行一步

Pul-Tab拉環咖啡陳新哲：做咖啡和做潮牌一樣，要與衆不同

雲鲸逍遙智能掃地機器人001測評：聰明、省心、安靜

馬斯克霸氣提25%特斯拉股份要求，否則剝離AI和機器人技術

新車“價格戰”波及二手市場，行業遇冷！短視訊、直播賣車火了

李勝利聚會強行拖拽女性視訊曝光兩人體力懸殊畫面驚悚