明敏 發自 凹非寺
量子位 | 公衆号 QbitAI
你敢信?大熊貓都會打牌了!
看這毛茸茸的腦袋、抓牌的動作……
而這其實都是AI生成的,還是零樣本那種。
這就是谷歌最新大語言模型VideoPoet。
它不僅沒有用視訊領域常用的擴散模型,還零樣本實作了SOTA。相較于此前一些模型,畫面更加穩定、動作更加逼真,清晰度也直線up。
和Bard再合作一下,輕松搞定1分鐘長的視訊小片,從腳本到畫面全部不用人類插手。
這效果,讓網友們直呼:視訊生成進化速度也太快了吧。
不少人都表示想玩!
有人還說,VideoPoet效果這麼好,看來Runway和Pika要加速了!
畫面逼真動作穩定
具體來看VideoPoet的能力非常全面。包括:
- 文本-視訊
- 圖像-視訊
- 視訊編輯
- 風格化處理
- 畫面補充
文本到視訊任務,視訊輸出長度可調整,而且可以基于文本内容應用一系列動作和風格。
圖像到視訊任務,則能讓靜态圖檔動起來。比如一些世界名畫和照片,都可生成視訊。
同時也能調整視訊風格,需要額外輸入一些文本,然後模型會預測視訊的光照和深度資訊。
比如輸入“鐵獅子在熔爐的火光中咆哮”,原本無厘頭的太陽花獅子就變得兇猛威嚴起來。
當然也能進行視訊編輯,比如讓視訊中的機器人随意運動、背景中加上煙霧等,都是輸入文字指令即可實作。
或者是輸入圖像,然後修改它的動作。讓蒙娜麗莎轉動身體、打哈欠。
以及可調整鏡頭動作。基本的縮放、弧線、航拍鏡頭都可搞定。
如果想讓擴充視訊畫面、增加視訊元素,VideoPoet也能實作。
值得一提的是,VideoPoet還可以根據視訊配樂。
這也是讓不少網友感到驚訝的地方。
比如先讓VideoPoet生成一段小熊打架子鼓的視訊,然後不給它任何文本提示,VideoPoet根據畫面内容自己生成了音頻。
如果想要生成更長的視訊,可以通過輸入視訊的最後一秒畫面讓VideoPoet預測下一段視訊,反複多次即可實作。
如下案例時長約為10秒。
用LLM零樣本生成視訊
不僅是生成效果好,VideoPoet還有一個優勢在于,以LLM為基礎,它能更友善利用現有大模型進行改進。
比如VideoPoet就使用了T5的編碼器。
不過由于大語言模型使用離散token,使得它生成視訊具有一定挑戰性。
與自然語言不同,人類對視覺世界尚未演化出最佳的詞彙表達。
通過視訊/音頻tokenizer可以來克服這一問題。
它們能将視訊和音頻編碼為離散token,也可将其轉換為原始表示。
VideoPoet正是基于這一原理實作。
它利用MAGVIT V2來搞定視訊圖像表示,SoundStream搞定音頻表示。
前者是谷歌CMU團隊在今年10月提出的方法,該方法實作了語言模型首次在ImageNet基準上擊敗擴散模型。
後者是一個端到端神經音頻解碼器。
具體來看VideoPoet的架構。它支援文本、視覺、音頻輸入,分别可利用t5、MAGVIT V2、SoundStream的編碼器。
然後再自回歸生成輸出。
實驗結果方面,在提示詞與生成結果的吻合度方面,VideoPoet超過多個擴散模型。
生成動作方面的優勢更加明顯。
這項工作由谷歌研究帶來,作者是兩位軟體工程師Dan Kondratyuk和David Ross。
據Dan透露,VideoPoet的論文也會馬上上線。
參考連結:
[1]https://sites.research.google/videopoet/
[2]https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态