天天看點

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

作者:量子位

夢晨 發自 凹非寺

量子位 | 公衆号 QbitAI

Meta最新6模态大模型,讓AI以更接近人類的方式了解這個世界。

比如當你聽見倒水聲的時候就會想到杯子,聽到鬧鈴聲會想到鬧鐘,現在AI也可以。

盡管畫面中沒有出現人類,AI聽到掌聲也能指出最有可能來自電腦。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

這個大模型ImageBind以視覺為核心,結合文本、聲音、深度、熱量(紅外輻射)、運動(慣性傳感器),最終可以做到6個模态之間任意的了解和轉換。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

如果與其他AI結合,還可以做到跨模态的生成。

比如聽到狗叫畫出一隻狗,同時給出對應的深度圖和文字描述。

甚至做到不同模态之間的運算,如鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

團隊在論文中寫到,ImageBind為設計和體驗身臨其境的虛拟世界打開了大門。

也就是離Meta心心念念的元宇宙又近了一步。

網友看到後也表示,又是一個掉下巴的進展。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

ImageBind代碼已開源,相關論文也被CVPR 2023選為Highlight。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

生成了解檢索都能幹

對于聲音-圖像生成,論文中透露了更多細節。

并不是讓AI聽到聲音後先生成文字的提示詞,而是Meta自己複現了一個DALL·E 2,并把其中的文本嵌入直接替換成了音頻嵌入。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

結果就是AI聽到雨聲可以畫出一張雨景,聽到快艇發動機啟動聲可以畫出一條船。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

其中比較有意思的是,床上沒有人,但AI也認為打呼噜聲應該來自床。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

ImageBind能做到這些,核心方法是把所有模态的資料放入統一的聯合嵌入空間,無需使用每種不同模态組合對資料進行訓練。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

并且用這種方法,隻需要很少的人類監督。

如視訊天然就把畫面與聲音做了配對,網絡中也可以收集到天然把圖像和文字配對的内容等。

而以圖像/視訊為中心訓練好AI後,對于原始資料中沒有直接聯系的模态,比如語音和熱量,ImageBind表現出湧現能力,把他們自發聯系起來。

在定量測試中,統一多模态的ImageBind在音頻和深度資訊了解上也超越了對應的專用模型。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

Meta團隊認為,當人類從世界吸收資訊時,我們天生會使用多種感官,而且人僅用極少數例子就能學習新概念的能力也來自于次。

比如人類在書本中讀到對動物的描述,之後就能在生活中認出這種動物,或看到一張不熟悉的汽車照片就能預測起發動機的聲音。

過去AI沒有掌握這個技能,一大障礙就是要把所有可能的模态兩兩組合做資料配對難以實作。

現在有了多模态聯合學習的方法,就能規避這個問題。

團隊表示未來還将加入觸覺、語音、嗅覺和大腦 fMRI,進一步探索多模态大模型的可能性

對于目前版本,Meta也放出了一個簡單的線上Demo,感興趣的話可以去試試。

Meta開源多感官大模型,AI用6種模态體驗虛拟世界,元宇宙又近了

Demo:

https://imagebind.metademolab.com/demo

GitHub:

https://github.com/facebookresearch/ImageBind

論文:

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

參考連結:

[1]https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀