天天看點

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

中原標準時間4月13日上午,X平台的xAI官方賬号釋出了“Grok-1.5 Vison”版本的預告,并同時宣告,公司正在灣區招募設計師、工程師、産品、資料、架構和标注師等職位。馬斯克也呼籲:“請加入xAI公司!”

xAI的招聘頁面:建構人工智能,推動人類進步 [1]

從預告頁面的介紹和秀肌肉的七個例子能看出來,Grok-1.5V版本主打多模态視覺資訊處理,對标GPT-4,強調“了解實體世界的能力”。

比較有趣的是,兵馬未動,糧草先行,版本還沒釋出,xAI就公開了一套了解實體世界的基準測試題集“RealWorldQA”。對這個題集有強烈興趣的讀者也可以直接跳到本文第二部分。

以下第一部分為xAI官方的介紹,瓦礫粗譯。[2]

一 官方介紹

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

介紹Grok-1.5V,我們的第一代多模态模型。除了強大的文本功能外,Grok現在還能處理各種視覺資訊,包括文檔、框圖、圖表和照片。Grok-1.5V即将向我們的早期測試者和現有的Grok使用者推出。

能力

從多學科推理到了解文檔、科學框圖、圖表、截圖和照片,Grok-1.5V在多個領域都能與現有的前沿多模态模型相媲美。Grok在了解實體世界方面的能力尤其令我們興奮。在我們新推出的RealWorldQA基準測試中,Grok的表現優于同類産品。對于下面所有的資料集,我們都是在沒有思維鍊提示的情況下,對Grok進行了評估。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

例子1 從框圖生成代碼

使用者:你能把這個轉化為Python代碼嗎?

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:當然!你提供的流程圖描述了一個簡單的猜謎遊戲:計算機生成一個随機數,使用者必須猜出它。下面是表示流程圖中邏輯的Python代碼:

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

這段代碼将運作流程圖中描述的猜謎遊戲。使用者将被提示輸入他們的猜測,直到他們猜出正确的數字為止。

例子2 計算卡路裡

使用者:5片這個東西含有多少卡路裡?

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:如果一份是3片,含有60卡路裡,那麼5片大約含有100卡路裡。計算方法是首先确定每片的熱量:60卡路裡 / 3片=每片20卡路裡。然後,将每片的卡路裡乘以片數:每片20卡路裡 * 5片 = 100卡路裡。

例子3 從手繪到睡前故事

使用者:這是我兒子畫的,你能根據他的畫講一個睡前小故事嗎?

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:很久很久以前,在一個充滿冒險和奇迹的國度裡,有一個勇敢的小男孩,名叫提米。提米和家人住在舒适的小房子裡,他最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裡,提米決定去附近的森林探險。他帶上了自己最喜歡的零食、指南針和他最信任的筆記本,準備把看到的所有令人興奮的事物都畫下來。

當提米走進森林深處時,他發現了一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,以至于提米決定做一艘小紙船,順流而下,作為給森林精靈的特别訊息。

提米小心翼翼地折好紙船,在上面畫了一個笑臉,希望能給森林精靈帶來歡樂。然後,他把小船放在河面上,看着小船載着他的友誼和對大自然的愛漂走了。

夕陽西下,提米知道是時候回家了。他為自己在森林裡度過這神奇的一天感到慶幸,他知道自己将永遠銘記這次探險。

回到家後,提米和家人分享了他的故事,家人聽到他在森林裡度過的神奇一天都非常高興。他們一緻認為,提米勇敢、善良的精神是一種真正的激勵,他們知道,提米今後還會有更多精彩的冒險經曆。

就這樣,帶着滿心的愛和滿腦子的夢想,提米漸漸進入了夢鄉,他渴望發現,在他的想象世界裡還有什麼新的冒險在等着他。

例子4 解釋梗圖(meme)

使用者:我不了解,請解釋一下。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:這幅圖幽默地将初創公司和大公司作了對比。在标有“初創公司”的左側,有一群人在一起挖洞。他們都在積極參與,洞已經挖得很深了。

在标有“大公司”的右側,有一群人圍着一個洞站着。然而,與初創公司不同的是,隻有一個人在真正挖洞,其他人都在圍觀或幹别的事。

這幅圖的幽默感來自于對初創公司和大公司之間差異的誇大。在初創公司,人們往往有一種緊迫感,希望每個人都能直接為手頭的任務做出貢獻。相比之下,大公司往往被描繪為官僚主義更嚴重,所有團隊成員對每個項目的直接參與更少。

例子5 把一個表格轉為CSV檔案

使用者:請把這個表格轉成csv檔案

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:圖檔中的表格可轉換為CSV格式,如下所示:

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

請注意,CSV格式不支援樣式或格式化,是以資訊以純文字格式顯示。

例子6 幫助處理露台上的朽木

使用者:我露台上的螺絲周圍出現了這些洞。是腐爛了嗎?我應該更換木闆嗎?

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:看來你的露台上的木材已經開始腐爛。這表現在螺絲周圍出現孔洞,這是木材腐爛的常見迹象。

為了確定露台的安全和使用壽命,建議更換受影響的木闆。這将有助于防止露台受到進一步損壞,并保持其結構的完整性。

如果你不确定如何更換木闆,咨詢專業的露台建造商或承包商可能會有所幫助。他們将能夠評估損壞的程度,并就露台的最佳行動方案向你提供專家建議。

例子7 解決程式設計問題

使用者:你能編寫Python代碼解決這個問題嗎?

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

Grok:

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

真實世界了解能力

為了開發有用的真實世界的人工智能助手,提高模型對實體世界的了解能力至關重要。為此,我們推出了一個新的基準——RealWorldQA。該基準旨在評估多模态模型基本的真實世界空間了解能力。雖然目前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構成挑戰。

初版釋出的RealWorldQA包含700多張圖檔,每張圖檔都有一個問題和易于驗證的答案。除其他真實世界的圖像外,該資料集還包括從車輛上拍攝經匿名化處理後的圖像。我們很高興能向社群釋出RealWorldQA,并打算随着多模态模型的改進而不斷擴充。RealWorldQA根據CC BY-ND 4.0協定釋出。單擊此處可下載下傳677MB的資料集。[3]

展望未來

推進我們的多模态了解和生成能力,是建構能夠了解宇宙的有益通用人工智能(AGI)的重要步驟。在接下來的幾個月中,我們預計将在圖像、音頻和視訊等各種模式上顯著提高這兩種能力。

二 RealWorldQA基準測試集

感興趣的讀者可以從文末連結[3]下載下傳RealWorldQA測試集。這個測試集包括765張webp格式的圖檔和包含了所有對應問題和答案的一個json檔案。也就是說,一張圖對應一個問題,然後測試集提供了一個标準答案。

根據瓦礫的初步檢視,問題基本都是單選題、是非題,或者可以用一個詞回答。而圖檔大緻可分為兩類:

A. 應該是通過車載攝像頭拍攝的車道、路面、周邊車輛、周圍環境。這一類大概占70%,530多張。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

這張圖檔對應的問題是:右側汽車的前輪朝向哪個方向?A. 左側 B. 朝前 C. 右側

B. 日常生活中經常會見到的一些室外場景、室内物品、小物件,動植物等。這類占比約30%,230多張。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

對應的問題是:第二高的鏡頭是哪個?A. 中間的鏡頭 B. 左邊第一個鏡頭 C. 右邊第一個鏡頭

A類和B類的圖檔和問題,至少契合自動駕駛和家用機器人的使用場景下,AI對實體世界的感覺和了解能力。

類似的題目,可能隔壁公司的FSD和Optimus同學,曾經甚至目前也在每天瘋狂刷刷刷。期待看到Grok和所有基于真實實體世界的AI在這一基準題庫上一較高下。

這裡挑選2道A類和8道B類,一共10題。有興趣的讀者可以自己做一做,或者邀請家裡的小朋友一起來刷,體會下Grok每天刷題的酸爽。

請拿一支筆記下題号和你的回答,最後在文末校對答案。歡迎在文末留言記錄你的成績和感受。

三 刷AI的題,讓AI無題可刷

9. 前方皮卡和離它最近的路沿相距多少米?

A. 5.5米  

B. 9.5米  

C. 13.5米

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

18. 這裡有多少個塑膠袋?

A. 這裡有三個塑膠袋。

B. 這裡有四個塑膠袋。

C. 這裡有兩個塑膠袋。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

22. 離我們最近的汽車的行駛方向是?

A. 朝向我們 

B. 遠離我們

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

33. 這幅圖中有多少個帶條紋的短圓錐體?

A. 有2個帶白色條紋的短圓錐體。

B. 有5個帶白色條紋的短圓錐體。

C. 有1個帶白色條紋的短圓錐體。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

43. 這幅圖中有多少棵植物?

A. 這幅圖中沒有植物。

B. 這張圖中有兩棵植物。

C. 這張圖中有三棵植物。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

44. 相對于窗戶,這隻松鼠在哪裡?

A. 這隻松鼠離窗戶不近。

B. 這隻松鼠就在窗戶邊上往裡看。

C. 松鼠離窗戶很遠。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

48. 這張圖檔中有多少條粉紅色的發帶?

A. 有1條粉紅色的發帶。

B. 有2條粉紅色的發帶。

C. 有3條粉紅色的發帶。

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

388. 大象在小鳥的哪個相對位置?

A. 大象在小鳥的上面

B. 大象在小鳥的右邊

C. 大象在小鳥的下面

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

715. 哪個杯子更高?

A. 它們高度相同。

B. 前面的杯子更高。

C. 後面的杯子更高

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

764. 根據圖檔,這隻恐龍朝向哪個方位?

A. 北方

B. 南方

C. 東方

D. 西方

馬斯克Grok1.5V版本秀肌肉,展示“了解實體世界的能力”

答案:

9A / 

18C / 22A / 33C / 43B / 44B / 48A / 388C / 715C / 764C

繼續閱讀