天天看點

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

作者:空白大熊

為了證明自家的實力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA 大模型之後,再次于 5 月 9 日開源了一個新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時間,收獲了 1.6k 個 Star。

這個模型與衆不同之處便是可以将多個資料流連接配接在一起,它結合了六種資料,即圖像、文本、音頻、深度、熱資料和 IMU 資料,以建立多感官内容。

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

ImageBind 實作感官大一統

相比于DALL-E、Stable Diffusion 和 Midjourney 等 AI 圖像生成器都依賴于文本和圖像連結在一起的系統;ImageBind 的意義在于它能夠讓機器像人類一樣進行整體學習。該技術允許引擎了解和連接配接不同的資訊形式,包括文本、圖像、音頻、深度、熱資料和運動傳感器。它無需先針對每一種可能性進行訓練,直接預測資料之間的聯系,類似于人類感覺或者想象環境的方式,無需對每種可能的模态組合進行訓練。

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

Meta 在其官方部落格中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是,它能使機器更好地一起分析許多不同形式的資訊,進而有助于推進人工智能。”

打個比喻,如果你讓ImageBind模拟長時間的海上航行,它會讓你置身于一艘船上,除了遠處的海浪聲之外,還有腳下甲闆的搖晃和海洋空氣的冷風。它能夠交叉引用這些資料,想象一個未來的虛拟現實系統,它不僅可以建立音頻和視覺輸入,還可以建立你在真實舞台上的環境和動作

在官方部落格中,Meta 分享 ImageBind 是通過圖像的綁定屬性,隻要将每個模态的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接配接這些模式的橋梁,例如利用網絡資料将文本與圖像連接配接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視訊資料将運動與視訊連接配接起來。

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

ImageBind 可以用來幹什麼?

如果說 ChatGPT 是搜尋引擎、Midjourney 是畫畫工具,那麼用 ImageBind 可以做什麼?

ImageBind 可以通過圖檔生成音頻:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

也可以音頻生成圖檔:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

或者直接給一個文本,就可以檢索相關的圖檔或者音頻内容:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

你也可以給出一個音頻+一張圖,如“狗叫聲”+海景圖:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

可以得到一張“狗在看海”的圖:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

也可以給出音頻,生成相應的圖像:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

ImageBind 用法

安裝 pytorch

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

對于 Windows 使用者,需要安裝soundfile以讀取/寫入音頻檔案。

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

你可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API:

Meta 開源 ImageBind 模型,超越 GPT-4,對齊文本、音頻等 6 種模态!

繼續閱讀