天天看點

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

作者:新智元

編輯:編輯部

【新智元導讀】機器人的ChatGPT時刻,真來了!初創公司Figure自家機器人看了10小時視訊,學會了煮咖啡。另一邊,東京大學GPT-4加持的Alter3機器人,能夠模仿人類做出任何動作。而人類隻需發出自然語言指令即可,完全不需要程式設計!

機器人,本周果然迎來了ChatGPT時刻!

初創公司Figure,就做出了一個能學人類煮咖啡的機器人。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

就在昨天,Figure創始人在社交平台上,提前預告了自家實驗室取得的重大突破。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

而東京大學則讓GPT-4和仿人機器人Alter3相連。

人類隻要給出自然語言指令,GPT-4就能把這些指令轉換為可執行的代碼,讓機器人模仿人類做出任何動作,包括彈吉他、自拍、扮鬼等等,甚至還能去電影院偷别人的爆米花。

心情很閑适,喝杯茶。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

拿着吉他玩搖滾。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

假裝我是一條蛇。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

來張自拍,像網紅們一樣擺出俏皮浮誇的表情。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

在電影院邊吃爆米花邊看電影,忽然發現,自己吃的是别人的爆米花,頓時尴尬地笑起來。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

看人類煮咖啡10小時,學會這項技能

名叫Figure 01的這個機器人,采用的是端到端的人工智能系統。

它隻需觀察人類煮咖啡的錄像,就能在10小時内學會制作咖啡的技能。

這個機器人是通過神經網絡來處理和分析視訊資料的。通過觀看錄像,它能夠學會人類的動作和手勢,然後模仿這些動作,來學習制作咖啡的過程。

這個過程證明了,無需通過程式設計,機器人完全可以自主學習技能!

隻要跟它說:Figure 01,你可以幫我做一杯咖啡嗎?

它就會把咖啡膠囊放入機器内,用手按按鈕,過不了多久,一杯香氣四溢的咖啡就做好了!

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

這個過程中難能可貴的一點是,機器人能學習如何改正自己的錯誤,比如咖啡膠囊放得不對,它就會矯正自己。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

Brett Adcock解釋了視訊資料訓練為何如此重要的原因。

之是以說這具有開創性意義,是因為如果你能獲得某個應用的人類資料(如煮咖啡、疊衣服、倉庫工作等),就可以在Figure 01的基礎上對AI系統進行端到端的訓練。

這是可以擴充到每種應用的一種方式。當機器人數量擴大時,從機器人群中收集更多資料,重新進行訓練,機器人就能實作更好的性能。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

值得一提的是,許多網友對機器人沖咖啡的速度表示驚訝。官方對此回應稱,視訊并沒有加速。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

東京大學的扮鬼機器人

而東京大學的這個人形機器人,之前就曾經因栩栩如生的「扮鬼」行為而出圈過。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

東京大學的研究人員,把這個叫做Alter3的仿人機器人和GPT-4相連。

利用指令,它就可以完成一系列人類行為,比如彈吉他、自拍、扮鬼等等,甚至可以去電影院偷吃别人的爆米花。

這個過程中,LLM将書面指令轉換為可執行的代碼,進而讓機器人模仿出多種人類的動作。從視訊效果上看,屬實是吊打了最近風頭正勁的斯坦福家務機器人。

也就是說,Alter3之是以能戲精上身,将「鬼」模仿得如此出神入化,還是因為GPT-4的prompt給得好啊!

「0 創造恐懼的睜大眼睛的面部表情,張開嘴巴發出無聲的尖叫」,

「1 迅速向後傾斜,仿佛被突然的幻影吓了一跳」,

「2 舉起雙手,在臉上揮舞,模仿幽靈般的動作」,

「3 張大嘴巴搖頭,表現出恐懼的戲劇性反應」,

「4 将上半身從一側移動到另一側,仿佛被幽靈的存在所困擾」,

「5 雙手握在胸前,表現出極度焦慮」,

「6 眼睛從一邊瞟到另一邊,仿佛目睹了一場詭異的活動」,

「7 先前傾,然後後傾,模仿鬼魂的漂浮動作」,

「8 慢慢回到休息位置,同時保持驚恐的表情」

通過代碼,将人類動作映射到機器人身上

Alter3是怎樣使用LLM生成自發運動的呢?

具體過程,就是将GPT-4內建到了Alter3中,進而有效地将GPT-4與Alter的身體運動結合起來。

通常,低級機器人控制是依賴于硬體的,這超出了LLM語料庫的範圍,這給直接基于LLM的機器人控制帶來了挑戰。

不過,研究者在Alter3上,實作了突破——通過程式代碼,他們将人類動作的語言表達映射到機器人的身體上,這就讓直接控制變得可行了。

這種方法無需對每個身體部位進行顯式程式設計,直接就可以讓Alter3采用各種姿勢,比如自拍或扮鬼,還能随着時間的推移生成一系列動作。

這充分證明了機器人的零樣本學習能力。

甚至,口頭回報都可以調整機器人的姿勢,無需微調。

比如,用GPT-4告訴機器人,「播放金屬音樂」,它就接收到了資訊,開始有模有樣地彈起了電吉他,腦袋還跟着節奏晃動。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

「0 創造一種強烈興奮的面部表情,睜大眼睛,微微張開嘴巴,露出狂野的笑容」,

「1 積極地向前傾斜,仿佛準備潛入音樂中」,

「2 模仿左手握住吉他琴頸的動作」,

「3 用右手開始彈奏空氣,仿佛在演奏沉重的即興演奏」,

「4 有節奏地上下搖晃頭部,模仿與金屬音樂相關的甩頭動作」,

「5 舉起左手,仿佛伸手去彈更高的吉他音符,眼睛鎖定在想象中的指闆上」,

「6 用右手模仿戲劇性的吉他彈奏,仿佛擊中有力的和弦」,

「7 右手在假想的吉他弦上慢慢掃過,模仿吉他獨奏」,

「8 模仿将想象中的吉他砸在地闆上的動作,展現金屬音樂的狂野精神」,

「9 逐漸恢複到休息姿勢,但保持激烈的面部表情,表現出揮之不去的興奮」

LLM把人類從疊代工作中解放出來

在LLM出現之前,為了讓機器人模仿一個人的姿勢,或者及假裝一種行為,比如端茶、下棋,研究人員必須按照一定的順序控制所有的43個軸。

這個過程中,需要人類研究員手動進行許多改進。

多虧了LLM,現在人類研究者可以從疊代的工作中解放了出來。隻要使用口頭指令,就能控制Alter3的程式了。

研究者先後應用兩個用自然語言編寫的思維鍊協定,并不需要學習過程的疊代(也就是零樣本學習)。

如圖所示,研究人員使用了以下協定。

需要注意的是,GPT-4是非确定性的(non-deterministic),即使在$temperature=0.$時也是如此。

是以,即使輸入相同,也可以産生不同的運動模式。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

使用口頭指令控制Alter3人形機器人的程式。通過使用Prompt1、2輸出python代碼,進而使用自然語言控制Alter3,這個架構是基于CoT的

語言回報

Alter3無法觀察自己的世代對任何實體過程産生的影響,這在人類意義上是非常不自然的。

是以,Alter3無法準确了解「手舉多高」等細節,也就無法相應地改進自己的動作。

通過經驗性地通過回報來開發和利用外部記憶,Alter3的身體模型可以與GPT-4內建,而無需更新其參數。

現在,Alter3可以根據人類的語言回報重寫代碼。

比如,使用者建議「自拍時手臂擡高一點」,然後Alter3就可以将修改後的動作代碼作為動作記憶存儲在資料庫中。

這樣就能確定下次生成該動作時,機器人會使用經過改進和訓練的動作。

通過這種回報,機器人就積累了有關自己身體的資訊,記憶就可以有效地充當一個身體圖示。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

上圖說明了Alter3中的語言回報系統。

這個過程中,使用者會提供語言回報,來指導Alter3在每個運動分段中的調整,比如「将軸16設定為255」或「更有力地移動手臂」。

在這個過程中,使用者隻需提供口頭指令,無需重寫任何代碼,然後,Alter3就會自動修改相應的代碼。

一旦動作被完善,它就會被儲存在一個帶有描述性标簽的JSON資料庫中,例如「握住吉他」或「深思熟慮地敲擊下巴」。

對于使用prompt2生成動作,JsonToolkit有助于資料庫搜尋這些标簽,LLM會決定記憶體使用和新動作的建立。

\textbf{(b)}比較有回報和沒有回報的分數,有回報的運動比沒有回報的運動得分更高。

結果

為了量化GPT-4生成動作的能力,研究人員評估了9種不同生成動作的視訊,将其分為兩類。

第一種情況是「即時手勢」,包括「自拍」和「喝茶」等日常動作,以及「扮鬼」和「扮蛇」等模仿動作。

第二種情況是一段時間内的動作,包括更複雜的情景。就比如「在影院邊吃爆米花邊欣賞電影時,發現自己吃的其實是旁邊人的爆米花」這樣的尴尬情節,以及「在公園裡慢跑時,世界似乎在講述一個古老的生存故事,每一個腳步聲都回蕩着亘古不變的存在」這樣的情感場景。

這些動作均由GPT-4生成。提示1的溫度設定為$0.7$,提示2的溫度設定為$0.5$。受試者($n=107$)是通過Prolific平台招募的。

他們觀看了這些視訊,并對GPT-4(gpt-4-0314)的表達能力進行了評估(評估采用5級評分法,1為最差)。

在對照組中,研究人員采用了Alter3的随機動作,并附加了由GPT-4生成的随機動作符号作為這些動作的标記。

這些貼有标記的對照視訊被巧妙地納入調查,其中3個被分散在向參與者展示的主要實驗視訊中。

為了确定對照視訊與其他視訊之間的評分是否存在顯著差異,研究團隊首先采用了弗裡德曼檢驗法(Friedman test)。結果顯示,不同視訊之間的評分存在明顯差異。使用奈曼尼檢驗(Nemenyi test)進行的進一步事後分析表明,雖然對照組視訊之間的p值沒有顯著差異,但對照組與其他視訊相比,p值明顯更小,這表明存在顯著差異(見圖)。

是以,與對照組相比,GPT-4生成的動作評分明顯更高。這表明,GPT-4生成的android動作與對照組的感覺不同。這一結果表明,該系統可以生成各種動作,從自拍、喝茶等日常動作到模仿鬼或蛇等非人類動作。

GPT-4加持Alter3機器人扮鬼玩吉他,Figure 01看視訊學會煮咖啡

每個動作的平均評估分數

LLM的訓練包括一系列動作的語言表征。GPT-4可以将這些表征準确地映射到Alter3的身體上。

最值得注意的是,Alter3是一個與人類形态相同的仿人機器人,這使得GPT-4可以直接應用有關人類行為和動作的豐富知識。

此外,通過Alter3,LLM可以表達尴尬和喜悅等情緒。

即使在沒有明确表達情緒的文本中,LLM也能推斷出适當的情緒,并在Alter3的表現中反映出來。這種語言和非語言交流的整合可以增強與人類進行更細緻入微、更富同情心的互動的潛力。

LLM可以推動具身智能

Alter3如此高能的示範,回答了「具身智能對于LLM是否是必要的」這個問題。

首先,Alter3不需要額外的訓練就能完成許多動作。這意味着,訓練LLM的資料集已經包含了動作描述。

也就是說,Alter3可以實作零樣本學習。

此外,它還能模仿鬼魂和動物(或模仿動物的人),這一點非常驚人。

甚至,它還能了解聽到的對話内容,并通過面部表情和手勢反映出故事是悲傷還是快樂。

至此,Alter3通過LLM獲得的加持,已經非常明顯了。

參考資料:

https://tnoinkwms.github.io/ALTER-LLM/?continueFlag=bcae05c73de8a193cf0ec0b4e1046f97

https://twitter.com/Figure_robot/status/1743985067989352827?t=lMaAK1frDFSgyjuaE5KyOw&s=19

繼續閱讀