編輯：編輯部

【新智元導讀】谷歌全新視訊生成模型VideoPoet再次引領世界！十秒超長視訊生成效果碾壓Gen-2，還可進行音頻生成，風格轉化。

AI視訊生成，或許就是2024年下一個最前沿（juan）的領域。

回看過去幾個月，RunWay的Gen-2、Pika Lab的Pika 1.0，國内大廠等大波視訊生成模型紛紛湧現，不斷疊代更新。

這不，RunWay一大早就宣布Gen-2支援文本轉語音的功能了，可以為視訊建立畫外音。

當然，谷歌在視訊生成上也不甘落後，先是與斯坦福李飛飛團隊共同釋出了W.A.L.T，用Transformer生成的逼真視訊引來大波關注。

今天，谷歌團隊又釋出了一個全新的視訊生成模型VideoPoet，而且無需特定資料便可生成視訊。

論文位址：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最令人驚歎的是，VideoPoet一次能夠生成10秒超長，且連貫大動作視訊，完全碾壓Gen-2僅有小幅動作的視訊生成。

另外，與領先模型不同的是，VideoPoet并非基于擴散模型，而是多模态大模型，便可擁有T2V、V2A等能力，或将成為未來視訊生成的主流。

網友看後紛紛「震驚」刷屏。

不如，接下來可以先看一波體驗。

文字轉視訊

在文本到視訊的轉換中，生成的視訊長度是可變的，并且能夠根據文本内容展現出多種動作和風格。

比如，熊貓打牌：

Two pandas playing cards

南瓜爆炸：

A pumpkin exploding, slow motion

宇航員策馬奔馳：

An astronaut riding a galloping horse

圖像轉視訊

VideoPoet還可以根據給定的提示，将輸入的圖像轉換成動畫。

左：一艘船在波濤洶湧的海面上航行，周圍是雷電交加的景象，以動态油畫風格呈現

中：飛過充滿閃爍星星的星雲

右：一位拄着手杖的旅行者站在懸崖邊，凝視着風中翻騰的海霧

視訊風格化

對于視訊風格化，VideoPoet先預測光流和深度資訊，然後再将額外的文本輸入到模型。

左：袋熊戴着墨鏡，在陽光明媚的海灘上拿着沙灘球

中：泰迪熊在清澈的冰面上滑冰

右：一隻金屬獅子在熔爐的光芒下咆哮

從左到右：逼真，數字藝術，鉛筆藝術，水墨，雙重曝光，360度全景

視訊轉音頻

VideoPoet還能生成音頻。

如下，首先從模型中生成2秒鐘的卡通片段，然後在沒有任何文本引導的情況下嘗試預測音頻。這樣就能從一個模型中生成視訊和音頻。

通常情況下，VideoPoet以縱向的方式生成視訊，以便與短片視訊的輸出相一緻。

谷歌還專門做了一部由VideoPoet生成的許多短片組成的簡短電影。

具體文本比編排上，研究人員要求Bard先寫一個關于一隻旅行浣熊的短篇故事，并附帶場景分解和提示清單。然後，為每個提示生成視訊片段，并将所有生成的片段拼接在一起，制作出下面的最終視訊。

視訊講故事

通過随時間變化的提示，可以創造視覺上的故事叙述。

輸入：一個由水構成的行走的人

擴充：一個由水構成的行走的人。背景中有閃電，同時從這個人身上散發出紫色的煙霧

輸入：兩隻浣熊騎着機車在松樹環繞的山路上行駛，8k

擴充：兩隻浣熊騎着機車。流星雨從浣熊身後墜落，撞擊地面并引發爆炸

LLM秒變視訊生成器

目前，Gen-2、Pika 1.0視屏生成的表現足以驚人，但是遺憾的是，無法在連貫大幅動作的視訊生成上表現驚豔。

通常，它們在産生較大動作時，視訊會出現明顯的僞影。

對此，谷歌研究人員提出了VideoPoet，能夠執行包括文本到視訊、圖像到視訊、視訊風格化、視訊修複/擴充和視訊到音頻等多樣的視訊生成任務。

相比起其他模型，谷歌的方法是将多種視訊生成功能無縫內建到單一的大語言模型中，而不依賴針對各個任務分别訓練的專用元件。

具體來說，VideoPoet主要包含以下幾個元件：

- 預訓練的MAGVIT V2視訊tokenizer和SoundStream音頻tokenizer，能将不同長度的圖像、視訊和音頻剪輯轉換成統一詞彙表中的離散代碼序列。這些代碼與文本型語言模型相容，便于與文本等其他模态進行結合。

- 自回歸語言模型可在視訊、圖像、音頻和文本之間進行跨模态學習，并以自回歸方式預測序列中下一個視訊或音頻token。

- 在大語言模型訓練架構中引入了多種多模态生成學習目标，包括文本到視訊、文本到圖像、圖像到視訊、視訊幀延續、視訊修複/擴充、視訊風格化和視訊到音頻等。此外，這些任務可以互相結合，實作額外的零樣本功能（例如，文本到音頻）。

VideoPoet能夠在各種以視訊為中心的輸入和輸出上進行多任務處理。其中，LLM可選擇将文本作為輸入，來指導文本到視訊、圖像到視訊、視訊到音頻、風格化和擴圖任務的生成

使用LLM進行訓練的一個關鍵優勢是，可以重用現有LLM訓練基礎設施中引入的許多可擴充的效率改進。

不過，LLM是在離散token上運作的，這可能會給視訊生成帶來挑戰。

幸運的是，視訊和音頻tokenizer，可以将視訊和音頻剪輯編碼為離散token序列（即整數索引），并可以将其轉換回原始表示。

VideoPoet訓練一個自回歸語言模型，通過使用多個tokenizer（用于視訊和圖像的MAGVIT V2，用于音頻的SoundStream）來跨視訊、圖像、音頻和文本模态進行學習。

一旦模型根據上下文生成了token，就可以使用tokenizer解碼器将這些token轉換回可檢視的表示形式。

VideoPoet任務設計：不同模态通過tokenizer編碼器和解碼器與token互相轉換。每個模态周圍都有邊界token，任務token表示要執行的任務類型

三大優勢

概括來說，VideoPoet比起Gen-2等視訊生成模型，具備以下三大優勢。

更長的視訊

VideoPoet通過對視訊的最後1秒進行調節，并預測接下來的1秒，就可以生成更長的視訊。

通過反複循環，VideoPoet通不僅可以很好地擴充視訊，而且即使在多次疊代中，也能忠實地保留所有對象的外觀。

如下是VideoPoet從文本輸入生成長視訊的兩個示例：

左：宇航員在火星上跳舞，背景是五彩缤紛的煙花

右：無人機拍攝的叢林中一座非常尖銳的精靈石城，城中有一條湛藍的河流、瀑布和陡峭的垂直懸崖

相比于其他隻能生成3-4秒視訊的模型，VideoPoet一次就可以生成長達10秒的視訊。

無人機拍攝的古堡秋景

精準的控制

視訊生成應用一個非常重要的能力在于，對于生成的動态效果，使用者有多大的控制能力。

這将很大程度上決定了模型能否被用來制作複雜連貫的長視訊。

VideoPoet不但可以為輸入的圖像通過文字描述來添加動态效果，并通過文本提示來調整内容，來達到預期的效果。

左：轉身看鏡頭；右：打哈欠

除了支援輸入圖像的視訊編輯，視訊輸入也可以通過文字進行精确控制。

針對最左邊的小浣熊跳舞視訊，使用者可以通過文字描述不同的舞姿來讓它跳不同的舞蹈。

生成「左」：跳機器人舞

生成「中」：跳Griddy舞

生成「右」：來一段Freestyle

同樣，還可以對VideoPoet生成的現有視訊片段，進行互動式編輯。

如果我們提供一個輸入視訊，就可以改變對象的運動來執行不同的動作。對物體的操作可以以第一幀或中間幀為中心，進而實作高度的編輯控制。

比如，可以從輸入視訊中随機生成一些片段，然後選擇所需的下一個片段。

如圖中最左邊的視訊被用作條件反射，在初始提示下生成四個視訊：

「一個可愛的鏽迹斑斑的破舊蒸汽朋克機器人的特寫，機器人身上長滿了青苔和新芽，周圍是高高的草叢」。

對于前3個輸出，沒有提示動作的自主預測生成。最後一個視訊，是在提示中添加了「啟動，背景為煙霧」以引導動作生成。

運鏡的手法

VideoPoet還可以通過在文本提示中，附加所需的運鏡方式，來精确控制畫面的變化。

例如，研究人員通過模型生成了一幅圖像，提示為「冒險遊戲概念圖，雪山日出，清澈河流」。下面的示例将給定的文本字尾添加到所需的動作中。

從左到右：拉遠、滑動變焦、向左平移、弧型運動鏡頭、搖臂拍攝、無人機航拍

評估結果

最後，VideoPoet在具體的實驗評測中的表現又如何呢？

為了確定評估的客觀性，谷歌研究人員在在各種提示上運作所有模型，并讓人們對其偏好進行評分。

下圖顯示了在以下問題中，VideoPoet被選為綠色首選項的百分比。

文本保真度：

文本保真度的使用者偏好評級，即在準确遵循提示方面首選視訊的百分比

動作趣味性：

使用者對動作趣味性的偏好評級，即在産生有趣的動作方面，首選視訊的百分比

綜上可見，平均有24-35%的人認為VideoPoet生成的示例比其他模型更加遵循提示，而其他模型的這一比例僅為8-11%。

此外，41%-54%的評估者認為VideoPoet中的示例動作更有趣，而其他模型隻有11%-21%。

對于未來的研究方向，谷歌研究人員表示，VideoPoet架構将會實作「any-to-any」的生成，比如擴充文本到音頻、音頻到視訊，以及視訊字幕等等。

網友不禁發問，Runway和Pika能否抵擋住谷歌和OpenAI即将推出的文本到視訊創新技術？

參考資料：

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

谷歌10秒視訊生成模型破世界記錄！效果碾壓頂流Gen-2

【新智元導讀】谷歌全新視訊生成模型VideoPoet再次引領世界！十秒超長視訊生成效果碾壓Gen-2，還可進行音頻生成，風格轉化。

文字轉視訊

圖像轉視訊

視訊風格化

視訊轉音頻

視訊講故事

更長的視訊

精準的控制

運鏡的手法

繼續閱讀

10個國産大模型大戰聯考作文：用AI寫AI

海賊王惡魔果實實力排名，黑胡子暗暗果實排名第九，排名第一的可以改變世界#海賊世界的皇副##海賊王#

《墨雨雲間》這誤會鬧大了！舅母把十幾年未見的親外甥女當成了丈夫帶回來的小野狐狸，帶着嬷嬷，拿着掃帚去打人……姜梨一歲多時

沖擊世界杯國足“生死戰”來了

永定開展“世界環境日”主題宣傳活動

鄧超說孫俪是世界上忍耐性最強的女人，此話意義非凡。要知道今天是孫俪和鄧超結婚14周年。當年孫俪官宣和鄧超戀愛時，是多麼開

13.3億，世界第1！皇馬坐擁8大巨星：反超曼城，狂甩巴薩

世界杯預選賽亞洲區18強産生13席，國足懸了，末戰南韓不能輸

【胡錫進胡桑對于馬斯克星艦試射實成功，感受到巨大的興奮和鼓舞】#頭條創作挑戰賽##胡錫進##馬斯克的星艦#中國的嫦娥6号

梅西最新專訪：從成績上看，世界最好球隊是皇馬，踢得最好是曼城

挑戰世界難題！70多年前，中國在沙漠上修建鐵路

西甲、歐冠雙冠，身價升至世界第一，維尼修斯争金球獎仍沒把握

2-3！新科世界第1被淘汰，法網首個男單決賽席位确定：阿卡創曆史

由胡亦瑤、黃鑫領銜主演，艾爾番、彭乙航主演的古裝奇幻愛情劇《仙君有劫》今日開播，中午12：00起，騰訊視訊全網獨播，會員

《玫瑰的故事》新劇照來喽！劉亦菲、佟大為、林更新、萬茜、林一、彭冠英、霍建華、朱珠、吳彼、王名揚、黃羿、藍盈瑩、陳瑤、吳

見證曆史！苦戰五盤3-2，阿卡逆轉辛納晉級法網決賽，世界第1出局