給語言大模型加上綜合視聽能力，達摩院開源Video-LLaMA

機器之心專欄

機器之心編輯部

視訊在當今社交媒體和網際網路文化中扮演着愈發重要的角色，抖音，快手，B 站等已經成為數以億計使用者的熱門平台。使用者圍繞視訊分享自己的生活點滴、創意作品、有趣瞬間等内容，與他人互動和交流。

近期，大語言模型展現出了令人矚目的能力。我們能否給大模型裝上 “眼睛” 和 “耳朵”，讓它能夠了解視訊，陪着使用者互動呢？

從這個問題出發，達摩院的研究人員提出了 Video-LLaMA，一個具有綜合視聽能力大模型。Video-LLaMA 能夠感覺和了解視訊中的視訊和音頻信号，并能了解使用者輸入的指令，完成一系列基于音視訊的複雜任務，例如音 / 視訊描述，寫作，問答等。目前論文，代碼，互動 demo 都已開放。另外，在 Video-LLaMA 的項目首頁中，該研究團隊還提供了中文版本的模型，讓中文使用者的體驗更絲滑。

論文連結：https://arxiv.org/abs/2306.02858

代碼位址：https://github.com/DAMO-NLP-SG/Video-LLaMA

Demo 位址：

Modelscope: https://modelscope.cn/studios/damo/video-llama/summary

Huggingface: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

樣例輸入檔案位址：

https://github.com/DAMO-NLP-SG/Video-LLaMA/tree/main/examples

模型設計

Video-LLaMA 采用了子產品化設計原則，把視訊中的視覺和音頻模态資訊映射到到大語言模型的輸入空間中，以實作跨模态指令跟随的能力。與之前側重于靜态圖像了解的大模型研究（MiNIGPT4，LLaVA）不同，Video-LLaMA 面臨着視訊了解中的兩個挑戰：捕捉視覺中的動态場景變化和整合視聽信号。

為了捕捉視訊中的動态場景變化，Video-LLaMA 引入了一個可插拔的視覺語言分支。該分支首先使用 BLIP-2 中預訓練好的圖檔編碼器得到每一幀圖像的單獨特征，再與對應的幀位置嵌入結合後，所有圖像特征被送入 Video Q-Former，Video Q-Former 将聚合幀級别的圖像表示并且生成定長的綜合視訊表征。最後采用一個線性層将視訊表征對齊到大語言模型的 embedding 空間。

至于視訊中的聲音信号，Video-LLaMA 使用音頻 - 語言分支進行處理。首先從原始視訊中均勻采樣多個時長兩秒的音頻片段，并将每個片段轉換為 128 維的梅爾頻譜圖。然後，采用強大的 ImageBind 作為音頻編碼器，單獨提取每個聲音片段的特征。在添加可學習的位置嵌入後，Audio Q-Former 将片段特征進行整體聚合，并生成固定長度的音頻特征。與視覺語言分支類似，最後采用線性層将音頻表征對齊到大語言模型的 embedding 空間。

為了減少訓練成本，Video-LLaMA 當機了預訓練好的圖檔 / 音頻編碼器，隻更新了視覺和音頻分支中的以下參數：Video/Audio Q-Former，位置編碼層以及線性層（如圖 1 所示）。

為了學習視覺和文本的對齊關系，作者們首先利用大規模的視訊 - 文本資料集 (WebVid-2M) 和圖像 - 文本資料集（CC-595K）對視覺分支進行預訓練。之後，作者們利用來自 MiniGPT-4，LLaVA 的圖像指令資料集和來自 Video-Chat 的視訊指令資料集來微調，進而達到更好的跨模态指令跟随能力。

至于音頻 - 文本對齊關系的學習，由于缺乏大規模高品質的音頻 - 文本資料，作者們采用了一種變通政策來達到這一目标。首先，音頻 - 語言分支中可學習參數的目标可以了解為将音頻編碼器的輸出與 LLM 的嵌入空間對齊。而音頻編碼器 ImageBind 具有非常強的多模态對齊能力，它能将不同模态的嵌入對齊到一個共同的空間中。是以，作者們使用視覺 - 文本資料來訓練音頻 - 語言分支，将 ImageBind 的公共嵌入空間對齊到 LLM 的文本嵌入空間，進而實作音頻模态到 LLM 文本嵌入空間對齊。通過這種巧妙的方式，Video-LLaMA 能在推理過程中展現出了解音頻的能力，即使從未接受過音頻資料的訓練。

執行個體展示

作者展示了 Video-LLaMA 基于視訊 / 音頻 / 圖像的對話的一些例子。

（1）下面兩個例子展示了 Video-LLaMA 的視聽綜合感覺能力，例子中的會話圍繞有聲視訊展開。在例子二中，畫面上僅僅顯示了這個演奏家，但是聲音中是觀衆的歡呼聲和掌聲，如果模型隻能接受視覺信号，将無法推測到觀衆的積極響應，音頻中并沒有樂器的聲音，但畫面中出現了薩克斯，如果模型僅能接受聽覺信号，也将無法得知演奏家演奏了薩克斯。

（2）Video-LLaMA 對于靜态圖像也有較強的感覺了解能力，可以完成圖檔描述，問答等任務。

（3）令人驚奇的是，Video-LLaMA 能成功識别著名的地标和人物，并能進行常識性問答。比如下面 VIdeo-LLaMA 就成功識别出了白宮，并介紹了白宮的情況。又比如輸入一張龍媽和囧雪的劇照（經典影視劇《權利的遊戲》中角色），VIdeo-LLaMA 不僅能夠成功識别，而且能說出他們剪不斷理還亂的關系。

（4）針對于視訊的動态事件，Video-llama 也能很好捕捉，例如噓聲的動作，小船行駛的方向。

總結

目前，音頻視訊了解依舊是一個非常複雜，尚未有成熟解決方案的研究問題，Video-LLaMA 雖然表現出了令人印象深刻的能力，作者也提到了其存在一些局限性。

（1）有限的感覺能力：Video-LLaMA 的視覺聽覺能力仍然較為初級，對複雜的視覺聲音資訊依然難以辨認。其中一部分原因是資料集的品質和規模還不夠好。該研究團隊正在積極建構高品質的音頻 - 視訊 - 文本對齊資料集，以增強模型的感覺能力。

（2）難以處理長視訊的：長視訊 (如電影和電視節目) 包含大量的資訊，對模型的推理能力和計算資源都較高。

（3）語言模型固有的幻覺問題，在 Video-LLaMA 中依然存在。

總的來說，Video-LLaMA 作為一個具有綜合視聽能力的大模型，在音頻視訊了解領域取得了令人印象深刻的效果。随着研究者的不斷攻堅，以上挑戰也将逐個被克服，使得音視訊了解模型具有廣泛的實用價值。