Meta開源多感官大模型，AI用6種模态體驗虛拟世界，元宇宙又近了

作者：量子位 2023-05-10 12:14:00

夢晨發自凹非寺

量子位 | 公衆号 QbitAI

Meta最新6模态大模型，讓AI以更接近人類的方式了解這個世界。

比如當你聽見倒水聲的時候就會想到杯子，聽到鬧鈴聲會想到鬧鐘，現在AI也可以。

盡管畫面中沒有出現人類，AI聽到掌聲也能指出最有可能來自電腦。

這個大模型ImageBind以視覺為核心，結合文本、聲音、深度、熱量（紅外輻射）、運動（慣性傳感器），最終可以做到6個模态之間任意的了解和轉換。

如果與其他AI結合，還可以做到跨模态的生成。

比如聽到狗叫畫出一隻狗，同時給出對應的深度圖和文字描述。

甚至做到不同模态之間的運算，如鳥的圖像+海浪的聲音，得到鳥在海邊的圖像。

團隊在論文中寫到，ImageBind為設計和體驗身臨其境的虛拟世界打開了大門。

也就是離Meta心心念念的元宇宙又近了一步。

網友看到後也表示，又是一個掉下巴的進展。

ImageBind代碼已開源，相關論文也被CVPR 2023選為Highlight。

生成了解檢索都能幹

對于聲音-圖像生成，論文中透露了更多細節。

并不是讓AI聽到聲音後先生成文字的提示詞，而是Meta自己複現了一個DALL·E 2，并把其中的文本嵌入直接替換成了音頻嵌入。

結果就是AI聽到雨聲可以畫出一張雨景，聽到快艇發動機啟動聲可以畫出一條船。

其中比較有意思的是，床上沒有人，但AI也認為打呼噜聲應該來自床。

ImageBind能做到這些，核心方法是把所有模态的資料放入統一的聯合嵌入空間，無需使用每種不同模态組合對資料進行訓練。

并且用這種方法，隻需要很少的人類監督。

如視訊天然就把畫面與聲音做了配對，網絡中也可以收集到天然把圖像和文字配對的内容等。

而以圖像/視訊為中心訓練好AI後，對于原始資料中沒有直接聯系的模态，比如語音和熱量，ImageBind表現出湧現能力，把他們自發聯系起來。

在定量測試中，統一多模态的ImageBind在音頻和深度資訊了解上也超越了對應的專用模型。

Meta團隊認為，當人類從世界吸收資訊時，我們天生會使用多種感官，而且人僅用極少數例子就能學習新概念的能力也來自于次。

比如人類在書本中讀到對動物的描述，之後就能在生活中認出這種動物，或看到一張不熟悉的汽車照片就能預測起發動機的聲音。

過去AI沒有掌握這個技能，一大障礙就是要把所有可能的模态兩兩組合做資料配對難以實作。

現在有了多模态聯合學習的方法，就能規避這個問題。

團隊表示未來還将加入觸覺、語音、嗅覺和大腦 fMRI，進一步探索多模态大模型的可能性

對于目前版本，Meta也放出了一個簡單的線上Demo，感興趣的話可以去試試。

Demo：

https://imagebind.metademolab.com/demo

GitHub：

https://github.com/facebookresearch/ImageBind

論文：

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

參考連結：

[1]https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

Meta開源多感官大模型，AI用6種模态體驗虛拟世界，元宇宙又近了

生成了解檢索都能幹

繼續閱讀

《雲球》暢想虛拟世界,啟發真實生活

#小時候動畫有多好看#小時候的動畫對很多人來說都是非常有趣和好看的。這這些動畫通常包含豐富的想象力，具有獨特的藝術風格和

《時空悍将》。男人擁有不死之軀可用玻璃修複身體。--《時空悍将》毒舌解說。是一個由幾百億個納米機器人生成的人，他天生就是

AppleVisionPro有哪些核心賣點？幫大家省流一下。1，多任務：可以同時進行多個任務或觀賽，并具備自由放大縮小窗

阿峰昨天的wwdc23蘋果釋出會你看了沒？當然看了。這次的釋出會除了更新了一個平平無奇的系統以外，還更新了三台電腦，分别

孩子沉迷手遊視訊,家長該如何應對?随着科技的發展,手機和平闆已經成為孩子學習娛樂的重要工具。但是過度依賴也會産生一定問題

尼歐為什麼能徒手擋住章魚機器人，錫安城真的是虛拟世界嗎？

盤點鵝廠幾代機器人，最新一代太亮眼#騰訊機器狗Max再更新#“Hi，大家好！我是Max。是不是覺得我有點不一樣了？我變得

元宇宙（Metaverse）是一個虛拟的、與現實世界平行存在的數字化世界。它是基于網際網路和虛拟現實技術icon建構的虛拟

天涯論壇，作為中國網際網路的重要一環，凝聚了無數熱血青年的夢想和追求。進入天涯的大門，仿佛踏入了一個永恒的迷宮，充滿着紛亂

男人發明了一種VR虛拟機，可以讓人與電影角色進行真實互動。當妻子回到家時，發現地上散落着丈夫的衣服，轉頭一看，發現他正躺

元宇宙的UI設計：打造沉浸式虛拟世界

“向上向善”的網絡風尚如何打造？——讓文明之光映照虛拟世界，成為通向網絡強國路上的時代課題

計算機生成圖像（Computer-GeneratedImagery，簡稱CGI）技術是現代電影制作中最為重要的視覺效果之

當警長的貓，你不感覺稀奇嗎？《黑貓警長之翡翠之星‎》《黑貓警長之翡翠之星‎》是一部在影視界産生深遠影響的電影。該電影作

這是被機器種植出來而非生養出來的人類。他們每天被浸泡在營養艙中。在出生前，他們會被放置在類似子宮的器皿中進行培育。他們發