為了證明自家的實力，相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型，Meta 在開源大模型的路上一騎絕塵，繼兩個月前開源 LLaMA 大模型之後，再次于 5 月 9 日開源了一個新的 AI 模型——ImageBind（https://github.com/facebookresearch/ImageBind），短短一天時間，收獲了 1.6k 個 Star。

這個模型與衆不同之處便是可以将多個資料流連接配接在一起，它結合了六種資料，即圖像、文本、音頻、深度、熱資料和 IMU 資料，以建立多感官内容。

Meta 開源 ImageBind 模型，超越 GPT-4，對齊文本、音頻等 6 種模态！

ImageBind 實作感官大一統

相比于DALL-E、Stable Diffusion 和 Midjourney 等 AI 圖像生成器都依賴于文本和圖像連結在一起的系統；ImageBind 的意義在于它能夠讓機器像人類一樣進行整體學習。該技術允許引擎了解和連接配接不同的資訊形式，包括文本、圖像、音頻、深度、熱資料和運動傳感器。它無需先針對每一種可能性進行訓練，直接預測資料之間的聯系，類似于人類感覺或者想象環境的方式，無需對每種可能的模态組合進行訓練。

Meta 在其官方部落格中也說道，“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是，它能使機器更好地一起分析許多不同形式的資訊，進而有助于推進人工智能。”

打個比喻，如果你讓ImageBind模拟長時間的海上航行，它會讓你置身于一艘船上，除了遠處的海浪聲之外，還有腳下甲闆的搖晃和海洋空氣的冷風。它能夠交叉引用這些資料，想象一個未來的虛拟現實系統，它不僅可以建立音頻和視覺輸入，還可以建立你在真實舞台上的環境和動作

在官方部落格中，Meta 分享 ImageBind 是通過圖像的綁定屬性，隻要将每個模态的嵌入與圖像嵌入對齊，即圖像與各種模式共存，可以作為連接配接這些模式的橋梁，例如利用網絡資料将文本與圖像連接配接起來，或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視訊資料将運動與視訊連接配接起來。

ImageBind 可以用來幹什麼？

如果說 ChatGPT 是搜尋引擎、Midjourney 是畫畫工具，那麼用 ImageBind 可以做什麼？

ImageBind 可以通過圖檔生成音頻：

也可以音頻生成圖檔：

或者直接給一個文本，就可以檢索相關的圖檔或者音頻内容：

你也可以給出一個音頻+一張圖，如“狗叫聲”+海景圖：

可以得到一張“狗在看海”的圖：

也可以給出音頻，生成相應的圖像：

ImageBind 用法

安裝 pytorch

對于 Windows 使用者，需要安裝soundfile以讀取/寫入音頻檔案。

你可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API：

Meta 開源 ImageBind 模型，超越 GPT-4，對齊文本、音頻等 6 種模态！

ImageBind 實作感官大一統

ImageBind 可以用來幹什麼？

ImageBind 用法

繼續閱讀

js系列-函數Function

this的基本用法和改變this指向問題

一個很老的錄像機主機闆，大概有15歲了。清一色的進口晶片：三星的主要、Techwell的模數轉換晶片（10年時候已被int

固态離子學法制備金納米帶及SERS應用一、實驗部分（一）試劑與儀器碘化铷（RbI)（分析純，含量≥99.0%），碘化銀（

龍珠同人WILD龍珠系列！這也太帥了吧！（imagesviaZEROO）#日漫分享#

js 手動實作call、apply、bind實作call實作apply實作bind

call apply bind區分

call、apply和bind方法的用法以及差別

JavaScript 中 call()、apply()、bind() 的用法和差別

函數的 call、apply、bind 方法

淺談JavaScript的bind()、apply()、call()

JavaScript學習筆記(十) call、apply、bind

bind,call和apply簡單總結

javascript中this,apply,call,bind的學習筆記

JavaScript 中call、apply、bind學習JavaScript 中call、apply、bind學習

VUE指令-樣式綁定v-bind