為了證明自家的實力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA 大模型之後,再次于 5 月 9 日開源了一個新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時間,收獲了 1.6k 個 Star。
這個模型與衆不同之處便是可以将多個資料流連接配接在一起,它結合了六種資料,即圖像、文本、音頻、深度、熱資料和 IMU 資料,以建立多感官内容。
ImageBind 實作感官大一統
相比于DALL-E、Stable Diffusion 和 Midjourney 等 AI 圖像生成器都依賴于文本和圖像連結在一起的系統;ImageBind 的意義在于它能夠讓機器像人類一樣進行整體學習。該技術允許引擎了解和連接配接不同的資訊形式,包括文本、圖像、音頻、深度、熱資料和運動傳感器。它無需先針對每一種可能性進行訓練,直接預測資料之間的聯系,類似于人類感覺或者想象環境的方式,無需對每種可能的模态組合進行訓練。
Meta 在其官方部落格中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是,它能使機器更好地一起分析許多不同形式的資訊,進而有助于推進人工智能。”
打個比喻,如果你讓ImageBind模拟長時間的海上航行,它會讓你置身于一艘船上,除了遠處的海浪聲之外,還有腳下甲闆的搖晃和海洋空氣的冷風。它能夠交叉引用這些資料,想象一個未來的虛拟現實系統,它不僅可以建立音頻和視覺輸入,還可以建立你在真實舞台上的環境和動作
在官方部落格中,Meta 分享 ImageBind 是通過圖像的綁定屬性,隻要将每個模态的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接配接這些模式的橋梁,例如利用網絡資料将文本與圖像連接配接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視訊資料将運動與視訊連接配接起來。
ImageBind 可以用來幹什麼?
如果說 ChatGPT 是搜尋引擎、Midjourney 是畫畫工具,那麼用 ImageBind 可以做什麼?
ImageBind 可以通過圖檔生成音頻:
也可以音頻生成圖檔:
或者直接給一個文本,就可以檢索相關的圖檔或者音頻内容:
你也可以給出一個音頻+一張圖,如“狗叫聲”+海景圖:
可以得到一張“狗在看海”的圖:
也可以給出音頻,生成相應的圖像:
ImageBind 用法
安裝 pytorch
對于 Windows 使用者,需要安裝soundfile以讀取/寫入音頻檔案。
你可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API: