Meta大動作！開源多感官AI模型，不僅能看會聽，還能“感覺溫度”

前段時間，帶着開源模型LlaMA“殺的”谷歌和微軟“措手不及”的Meta，又一次在AI戰場上丢下了一顆重磅炸彈。

今天，Meta重磅開源了多感官AI模型ImageBind（https://github.com/facebookresearch/ImageBind）。以視覺為核心，結合文本、聲音、深度、熱量（紅外輻射）、運動（慣性傳感器），最終可以做到6個模态之間任意的了解和轉換。

這也是第一個能夠整合六種類型資料的AI模型。

如何讓AI以更接近人類的方式了解這個世界?——也讓AI擁有多種感官，學會“腦補”。

一張大海的照片可以讓我們的腦海裡響起海浪的聲音，回憶起海邊腥鹹的味道。當我們聽到瀑布聲，腦海裡便會浮現恢弘的瀑布奇觀。

Meta指出，未來還将有其他可以被添加到模型中的感官輸入流，包括“觸摸、講話、氣味和大腦fMRI（功能性磁共振成像）信号”。

與此同時，ImageBind還可以進行跨模态檢索，如火車喇叭音頻，文本、深度、圖檔和視訊。

盡管目前ImageBind隻是一個研究項目，但它展示了未來人工智能生成多感官感覺的可能性，或許也使Meta的元宇宙夢更近了。

Meta在論文中解釋稱，他們把不同模态資料串聯在了一個嵌入空間（Embedding Space），讓其從多元度了解世界。

有網友評價道，imageBind的出現使AI發展過程中又迎來了激動人心的時刻：

“這項創新為AI搜尋能力、沉浸式VR體驗和更進階的AI技術鋪平了道路。對于AI愛好者和專業人士來說，激動人心的時刻即将到來！”。

Meta大動作！開源多感官AI模型，不僅能看會聽，還能“感覺溫度”

有網友評論稱，ImageBind的誕生就是為了模拟人類感覺。ImageBind面世，賈維斯也不遠了。

英偉達科學家Jim Fan點評道：自LLaMA以來，Meta就在開源領域大放異彩。

不過，對于Meta開源大模型的做法，也有人提出了質疑。如OpenAI便表示，這種做法對創作者有害，競争對手可以随意複制且可能具有潛在的危險，允許惡意行為者利用最先進的人工智能模型。

更接近人類感覺的元宇宙？

相比Midjourney、Stable Diffusion和DALL-E 2這樣簡單的将文字與圖像配對的生成器，ImageBind試圖讓AI更接近人類的思考和感覺方式：

可以連接配接文本、圖像/視訊、音頻、3D 測量（深度）、溫度資料（熱）和運動資料（來自 IMU），且它無需先針對每一種可能性進行訓練，直接預測資料之間的聯系，類似于人類感覺或想象的方式。

Meta大動作！開源多感官AI模型，不僅能看會聽，還能“感覺溫度”

這個模型利用到了圖像的綁定（binding）屬性，隻要将每個模态的嵌入與圖像嵌入對齊，就會實作所有模态的迅速對齊。

簡單來說就是圖像成為了連接配接這些模态的橋梁。

例如Meta利用網絡資料将文本與圖像連接配接起來，或者利用帶有IMU傳感器的可穿戴相機捕捉到的視訊資料将運動與視訊連接配接起來。

Meta在論文中指出，ImageBind的圖像配對資料足以将這六種模态綁定在一起。

模型可以更全面地解釋内容，使不同的模态互相“對話”，并找到它們之間的聯系。

例如，ImageBind可以在沒有一起觀察音頻和文本的情況下将二者聯系起來。這使得其他模型能夠“了解”新的模态，而不需要任何資源密集型的訓練。

具體而言，ImageBind利用網絡規模（圖像、文本）比對資料，并将其與自然存在的配對資料（視訊、音頻、圖像、深度）相結合，以學習單個聯合嵌入空間。

這樣做使得ImageBind隐式地将文本嵌入與其他模态（如音頻、深度等）對齊，進而在沒有顯式語義或文本配對的情況下，能在這些模态上實作零樣本識别功能。

與此同時，Meta表示，ImageBind可以使用大規模視覺語言模型（如 CLIP）進行初始化，進而利用這些模型的豐富圖像和文本表示。是以，ImageBind隻需要很少的訓練就可以應用于各種不同模态和任務。

如果與其他AI結合，還可以做到跨模态的生成。

比如聽到狗叫畫出一隻狗，同時給出對應的深度圖和文字描述。

甚至還做到不同模态之間的運算，如鳥的圖像+海浪的聲音，得到鳥在海邊的圖像。

對此，Meta在其官方部落格中也說道，“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是，它能更好地一起分析許多不同形式的資訊，進而推進人工智能的發展。”

Meta團隊認為，ImageBind為設計和體驗身臨其境的虛拟世界打開了大門。或許也讓Meta離幻想中的元宇宙世界更近了一步。

可以怎麼搜？

模型具體可以怎麼用？Meta開放了模型示範，具體包括：

使用圖像檢索音頻

以圖像或視訊作為輸入，可以生成音頻。比如選擇一張小狗的圖檔，就能夠檢索到狗吠的音頻。

使用音頻檢索圖像

通過一個音頻片段，給出一張對應的圖。聽着鳥鳴，小鳥的圖檔便出現了。

使用文本來檢索圖像和音頻

選擇下面的一個文本提示，ImageBind将檢索與該特定文本相關的一系列圖像和音頻片段。

使用音頻+圖像來檢索相關圖像

給一段狗叫聲再加一張海灘的圖檔。ImageBind可以在幾分鐘内檢索出相關圖像。

得到了一張“狗望海”的圖：

使用音頻來生成圖像

要想實作音頻生圖像，ImageBind需要和其他模型一起結合用，比如 DALL-E 2等生成模型。

來個下雨嘩啦啦的聲音，身在其中的意境圖就來了。

ImageBind的性能有多卓越？——打敗專家模型

在Meta研究科學家于近期釋出的題為《IMAGEBIND:一個嵌入空間綁定所有模态》（《IMAGEBIND： One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf）的論文中指出，ImageBind模型的第一大優勢在于，僅通過很少的樣本及訓練，模型性能便可提高：

此前，往往需要收集所有可能的配對資料組合，才能讓所有模态學習聯合嵌入空間。

ImageBind規避了這個難題，它利用最近的大型視覺語言模型，将零樣本能力擴充到新的模态。

Meta的模型具有小模型所不具備的出色能力，這些性能通常隻會在大模型中才會呈現。比如：音頻比對圖檔、判斷照片中的場景深度等等。

Meta的研究表明，視覺模型越強，ImageBind對齊不同模态的能力就越強。

在實驗中，研究人員使用了 ImageBind 的音頻和深度編碼器，并将其與之前在zero-shot檢索以及音頻和深度分類任務中的工作進行了比較。

結果顯示，ImageBind可以用于少量樣本的音頻和深度分類任務，并且優于之前定制的方法。

而以圖像/視訊為中心訓練好AI後，對于原始資料中沒有直接聯系的模态，比如語音和熱量，ImageBind表現出湧現能力，把他們自發聯系起來。

在定量測試中，研究人員發現，ImageBind的特征可以用于少樣本音頻和深度分類任務，并且可以勝過專門針對這些模态的先前方法。

在基準測試上，ImageBind 音頻和深度方面優于專家模型

比方說，ImageBind在少于四個樣本分類的top-1準确率上，要比Meta的自監督AudioMAE模型和在音頻分類fine-tune上的監督AudioMAE模型提高了約40%的準确率。

Meta希望，AI開發者社群能夠探索ImageBind，來開發其可以應用的新途徑。

Meta認為，關于多模态學習仍有很多需要探索的地方。ImageBind這項技術最終會超越目前的六種“感官”，其在部落格上說道，“雖然我們在目前的研究中探索了六種模式，但我們相信引入連接配接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信号——将使更豐富的以人為中心的人工智能模型成為可能。”

本文來自華爾街見聞，歡迎下載下傳APP檢視更多

Meta大動作！開源多感官AI模型，不僅能看會聽，還能“感覺溫度”

更接近人類感覺的元宇宙？

可以怎麼搜？

ImageBind的性能有多卓越？——打敗專家模型

繼續閱讀

中國是否錯過了第四次工業革命？ChatGPT的出現是否代表中國又錯過了百度和阿裡的AI？确實跟ChatGPT有點差距，但

公告精選丨國光電器：公司研發的能搭載ChatGPT的智能音箱于本月推出；世紀天鴻：未向一筆兩劃提供“筆神作文”AI模型訓練所需資料

用AI做遊戲？開發者基于ChatGPT建立《BeatSaber》克隆版本。新聞速報：2023.05.11開發人員：使用C

讓ChatGPT調用10萬+開源AI模型！HuggingFace新功能爆火

百度首頁上線AI對話的入口了，所有獲得文心一言内測資格的使用者應該都能看到這個入口了，PC端和手機端的百度APP應用都有。

一鍵控制10萬多個AI模型，HuggingFace做了個「APP Store」

Meta首次公開自研AI晶片的進展，預計該晶片将于2025年正式問世。該晶片名為MetaTrainingandInfer

國外人工智能研究：一種可以通過文本描述直接生成視訊的AI模型

為企業提供AI模型生産力工具，MLOps服務商「星鲸科技」獲數千萬元天使輪融資

晶片戰再起之AMD打破英偉達壟斷？今天半導體行業大事件，無疑是AMD重磅釋出AIGPUMI300X正式向英偉達發起挑戰。

中國科技一旦抱團發展，那進步真的是肉眼可見的！跟英文大模型比起來，現階段，中文大模型多數隻能完成單一任務。如果讓一家企業

好久不關注Ai繪圖了，今天看到一個由日本人開發的名為Bra的AI模型，用于生成逼真的亞洲美女圖。效果杆杠的，要不我也不會

ChatGPT品質下降，AI模型可靠性受質疑

華為再次創造曆史，盤古AI大模型太強了！華為再次創造曆史，推出的盤古AI大模型備受矚目。據報道，最近，華為在世界頂尖科學

妙鴨産品負責人：不與天真藍、海馬體争利，自研AI模型“提香”