前沿分享丨AI解讀視訊張口就來？這種幻覺難題Vista-LLaMA解決了

轉自機器之心

Vista-LLaMA 在處理長視訊内容方面的顯著優勢，為視訊分析領域帶來了新的解決架構。

近年來，大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領域取得了顯著進展，基于深度學習技術能夠了解和生成複雜的文本内容。然而，将這些能力擴充到視訊内容了解領域則是一個全新的挑戰 —— 視訊不僅包含豐富多變的視覺資訊，還涉及時間序列的動态變化，這使得大語言模型從視訊中提取資訊變得更為複雜。

面對這一挑戰，位元組跳動聯合浙江大學提出了能夠輸出可靠視訊描述的多模态大語言模型 Vista-LLaMA。Vista-LLaMA 專門針對視訊内容的複雜性設計，能夠有效地将視訊幀轉換為準确的語言描述，進而極大地提高了視訊内容分析和生成的品質。

論文首頁：https://jinxxian.github.io/Vista-LLaMA/

圖 1

技術創新路徑

現有多模态視覺與語言模型在處理視訊内容時，通常将視訊幀轉化為一系列的視覺 token，并與語言 token 結合以生成文本。然而，随着生成文本長度的增加，視訊内容的影響往往逐漸減弱，導緻生成的文本越來越多地偏離原視訊内容，産生所謂的 “幻覺” 現象。

Vista-LLaMA 通過創新的方式處理視訊和文本間的複雜互動，突破了傳統視訊語言模型的限制。Vista-LLaMA 的核心創新在于其獨特的視覺與語言 token 處理方式。不同于其他模型，它通過維持視覺和語言 token 間的均等距離，有效避免了文本生成中的偏差，尤其是在長文本中更為顯著。這種方法大幅提高了模型對視訊内容的了解深度和準确性。

圖 2

Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力（EDVT），它在處理視覺與文本 token 時去除了傳統的相對位置編碼，同時保留了文本與文本之間的相對位置編碼。EDVT 機制通過特定的函數處理隐藏層輸入，有效區分視覺 token 來源。

具體而言，它首先對輸入進行查詢、鍵和值的映射轉換，接着對查詢和鍵輸入應用旋轉位置編碼（RoPE），分别計算帶 RoPE 和不帶 RoPE 的注意力權重。随後，根據視覺 token 的存在與否合并這兩種注意力權重，通過 softmax 函數實作注意力的歸一化，并最終通過基于注意力權重的線性映射更新表示，生成輸出結果。這種創新使得多模态大語言模型能夠更加關注視訊的内容，尤其在複雜的視訊場景中，能夠有效地捕捉關鍵視覺元素，提升了文本生成的品質和相關性。

圖 3

同時，該模型引入的序列化視覺投影器為視訊中的時間序列分析提供了新的視角，它不僅能夠處理目前視訊幀，還能利用前一幀的資訊，進而增強視訊内容的連貫性和時序邏輯。

視覺投影器的作用是将視訊特征映射到語言嵌入空間，以便大型語言模型融合和處理視覺與文本輸入。如圖 4 所示，早期的視覺投影器通常使用線性層或查詢轉換器（Q-Former）直接将幀特征轉換為語言 token。然而，這些方法忽略了時間關系，限制了語言模型對視訊的全面了解。Vista-LLaMA 中引入了序列化視覺投影器，它通過線性投影層編碼視覺 token 的時間上下文，增強了模型對視訊動态變化的了解能力，這對于提升視訊内容分析的品質至關重要。

圖 4

基準測試結果

Vista-LLaMA 在多個開放式視訊問答基準測試中展現了卓越性能。它在 NExT-QA 和 MSRVTT-QA 測試中取得了突破性成績，這兩個測試是衡量視訊了解和語言生成能力的關鍵标準。在零樣本 NExT-QA 測試中，Vista-LLaMA 實作了 60.7% 的準确率。而在 MSRVTT-QA 測試中達到了 60.5% 的準确率，超過了目前所有的 SOTA 方法。這些成績在行業中屬于先進水準，顯著超越了其他 SOTA 模型，如 Video-ChatGPT 和 MovieChat。

圖 5

這些測試結果證明了 Vista-LLaMA 在視訊内容了解和描述生成方面的高效性和精準性，Vista-LLaMA 能夠準确了解和描述視訊内容，顯示了其強大的泛化能力。這些成績不僅展示了 Vista-LLaMA 在了解複雜視訊内容方面的能力，還證明了其在多模态語言處理領域的領先地位。

資料集：CineClipQA

圖 6

與 Vista-LLaMA 一同提出的還有 CineClipQA 新資料集。

CineClipQA 包含了 153 個精選視訊片段，這些片段來自五部風格和叙事手法各異的電影。每個片段代表電影情節的一個或多個獨特部分，并附有 16 個量身定制的問題，共計 2448 個問題。問題分為系統提示和問題兩部分：

系統提示提供了目前視訊片段中關鍵角色的基本資訊，并在必要時為角色的初始行動提供提示。
問題主要分為五類：識别、時間性（預測）、空間性（互動）、意圖和感覺。具體來說，識别包括地點和行動的問題；時間性涉及下一個行動、之前的行動、同時發生的行動和預測行動的問題；空間性涉及物體與人之間的空間資訊問題；意圖涉及行動目的地三種相似問題；最後，感覺檢查情感識别和詢問 “如何”（方式、态度等）。

該研究還提供了所有 16 種類型的詳細解釋和相應案例。在 CineClipQA 資料集中，Vista-LLaMA 也表現出了卓越的性能。

圖 7

簡言之，Vista-LLaMA 在處理長視訊内容方面的顯著優勢，為視訊分析領域帶來了新的解決架構，推動人工智能在視訊處理和内容創作方面的發展，預示着未來多模态互動和自動化内容生成領域的廣泛機遇。

更多詳情，請通路項目頁面 [https://jinxxian.github.io/Vista-LLaMA]。

關于位元組跳動智能創作團隊

智能創作團隊是位元組跳動音視訊創新技術和業務中台，覆寫了計算機視覺、圖形學、語音、拍攝編輯、特效、用戶端、服務端工程等技術領域，借助位元組跳動豐富的業務場景、基礎設施資源和良好的技術協作氛圍，實作了前沿算法 - 工程系統 - 産品全鍊路的閉環，旨在以多種形式向公司内部各業務線以及外部合作客戶提供業界前沿的内容了解、内容創作、互動體驗與消費的能力和行業解決方案。

目前，智能創作團隊已認證位元組跳動旗下的雲服務平台火山引擎向企業開放技術能力和服務。

前沿分享丨AI解讀視訊張口就來？這種幻覺難題Vista-LLaMA解決了

繼續閱讀

氣憤！女老師讓26名學生輪流毆打男孩：視訊曝光，校方回應惹衆怒

#頭條創作挑戰賽#這種女孩一定會走到社會頂層：1：删過的人，不加第二次！2：放棄的人，不愛第二回！3：辜負過你的人，不看

一群大媽為了拍視訊，搖着小樹唱妹妹坐船頭，無辜的小樹瑟瑟發抖

後續！市場門口半開，網友：再增10名保安不能讓一個視訊活着離開

太狠毒！黃家駒墓碑遭男子狂砸！視訊曝光，警方介入，評論區炸鍋

森林北曬騎馬視訊，戴5千元圍巾，點贊惡評，間接回應與汪峰戀情

吳彥祖入駐抖音，一條視訊漲粉200W!各地“吳彥祖”被勸收手

黃家駒墓碑被砸，現場視訊曝光，嫌疑人被扒，曾公開在廁所吃屎！

泰男誘騙13歲男孩發生關系！拍下大量視訊網售賺錢！

"女模特深夜悲劇！私密視訊遭不法傳播，她的呼籲令人痛心疾首"

為什麼禁止孩子刷短視訊毫無意義？看完這篇文章你就明白了

女模特私密視訊慘遭洩露瘋狂傳播

電腦怎麼錄特效視訊？這個工具可一鍵錄制！ | 萬彩特效大師

有哪些軟體可以制作背景特效視訊呢？進來了解一下吧！ | 萬彩

微視訊｜春天的事業

黃家駒的弟弟黃家強智商感人，而且立場嚴重有問題，黃貫中等beyond舊成員和他長期以來不對付看來是有原因的！近日，黃家駒

前沿分享丨AI解讀視訊張口就來？這種 幻覺 難題Vista-LLaMA解決了

繼續閱讀

前沿分享丨AI解讀視訊張口就來？這種幻覺難題Vista-LLaMA解決了