明敏發自凹非寺

量子位 | 公衆号 QbitAI

你敢信？大熊貓都會打牌了！

看這毛茸茸的腦袋、抓牌的動作……

而這其實都是AI生成的，還是零樣本那種。

這就是谷歌最新大語言模型VideoPoet。

它不僅沒有用視訊領域常用的擴散模型，還零樣本實作了SOTA。相較于此前一些模型，畫面更加穩定、動作更加逼真，清晰度也直線up。

和Bard再合作一下，輕松搞定1分鐘長的視訊小片，從腳本到畫面全部不用人類插手。

這效果，讓網友們直呼：視訊生成進化速度也太快了吧。

不少人都表示想玩！

有人還說，VideoPoet效果這麼好，看來Runway和Pika要加速了！

畫面逼真動作穩定

具體來看VideoPoet的能力非常全面。包括：

文本-視訊
圖像-視訊
視訊編輯
風格化處理
畫面補充

文本到視訊任務，視訊輸出長度可調整，而且可以基于文本内容應用一系列動作和風格。

圖像到視訊任務，則能讓靜态圖檔動起來。比如一些世界名畫和照片，都可生成視訊。

同時也能調整視訊風格，需要額外輸入一些文本，然後模型會預測視訊的光照和深度資訊。

比如輸入“鐵獅子在熔爐的火光中咆哮”，原本無厘頭的太陽花獅子就變得兇猛威嚴起來。

當然也能進行視訊編輯，比如讓視訊中的機器人随意運動、背景中加上煙霧等，都是輸入文字指令即可實作。

或者是輸入圖像，然後修改它的動作。讓蒙娜麗莎轉動身體、打哈欠。

以及可調整鏡頭動作。基本的縮放、弧線、航拍鏡頭都可搞定。

如果想讓擴充視訊畫面、增加視訊元素，VideoPoet也能實作。

值得一提的是，VideoPoet還可以根據視訊配樂。

這也是讓不少網友感到驚訝的地方。

比如先讓VideoPoet生成一段小熊打架子鼓的視訊，然後不給它任何文本提示，VideoPoet根據畫面内容自己生成了音頻。

如果想要生成更長的視訊，可以通過輸入視訊的最後一秒畫面讓VideoPoet預測下一段視訊，反複多次即可實作。

如下案例時長約為10秒。

用LLM零樣本生成視訊

不僅是生成效果好，VideoPoet還有一個優勢在于，以LLM為基礎，它能更友善利用現有大模型進行改進。

比如VideoPoet就使用了T5的編碼器。

不過由于大語言模型使用離散token，使得它生成視訊具有一定挑戰性。

與自然語言不同，人類對視覺世界尚未演化出最佳的詞彙表達。

通過視訊/音頻tokenizer可以來克服這一問題。

它們能将視訊和音頻編碼為離散token，也可将其轉換為原始表示。

VideoPoet正是基于這一原理實作。

它利用MAGVIT V2來搞定視訊圖像表示，SoundStream搞定音頻表示。

前者是谷歌CMU團隊在今年10月提出的方法，該方法實作了語言模型首次在ImageNet基準上擊敗擴散模型。

後者是一個端到端神經音頻解碼器。

具體來看VideoPoet的架構。它支援文本、視覺、音頻輸入，分别可利用t5、MAGVIT V2、SoundStream的編碼器。

然後再自回歸生成輸出。

實驗結果方面，在提示詞與生成結果的吻合度方面，VideoPoet超過多個擴散模型。

生成動作方面的優勢更加明顯。

這項工作由谷歌研究帶來，作者是兩位軟體工程師Dan Kondratyuk和David Ross。

據Dan透露，VideoPoet的論文也會馬上上線。

參考連結：

[1]https://sites.research.google/videopoet/

[2]https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

谷歌釋出新大語言模型：零樣本生成10秒視訊達SOTA！

畫面逼真動作穩定

用LLM零樣本生成視訊

繼續閱讀

C視訊｜金陽第九屆索瑪花文化旅遊節開幕，十萬畝索瑪花海助力文旅強縣

雷軍模仿者“雷民”賬号更名并删除模仿視訊，網友質疑侵權，律師解讀争議

從“天價”到“骨折價”，大模型要變天了

大模型想落地，先讓大家用得起

向佐曬視訊回應向太催生三胎，客廳放充氣滑梯，郭碧婷素顔陪兒女

與億級使用者直接互動第三方AI大模型加速接入微網誌生态

訊飛星火大模型賦能，開啟虛拟人“全新意識”

戴28萬表擋道後續！男子将起訴，完整視訊曝光，奧迪女車主要慌了

當開源遇到大模型，将産生怎樣的變革？

變态男砸毀黃家駒墓拍下短視訊，被抓後身份黑曆史被扒可氣又無奈

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

新車“價格戰”波及二手市場，行業遇冷！短視訊、直播賣車火了

李勝利聚會強行拖拽女性視訊曝光兩人體力懸殊畫面驚悚

賈躍亭吃早餐視訊又露餡了！美國部落客算出賈躍亭這頓早餐要花多少