天天看點

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

作者:量子位

白交 發自 凹非寺

量子位 | 公衆号 QbitAI

一句話,就讓綠巨人戴上VR眼鏡。

4K畫質那種。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

熊貓的奇幻漂流~

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

這是位元組最新的AI視訊生成模型MagicVideo-V2,各種奇思妙想的想法都能實作。它不僅支援4K、8K超高分辨率,輕松hold各種繪圖風格。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

△從左往右:油畫風、賽博風、設計風

測評效果超過Gen-2、Pika以及現有AI視訊生成工具。

結果上線不到24小時就引發衆人圍觀,比如一條推文就有近20萬浏覽量。

不少網友驚訝其效果,甚至直言:比runway和pika還要好。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

“比runway和pika還要好”

研究人員也的确進行了實際的效果比較。選手分别為:MagicVideo-V2、StabilityAI的SVD-XT,新潛力玩家Pika1.0,以及Runway的Gen-2。

第一輪:光影效果。

夕陽西下,旅行者獨自行走在迷霧森林中。
效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

(從左到右依次是:MagicVideo-V2、SVD-XT,右上Pika,右下Gen-2,下同)

可以看到,MagicVideo-V2、Gen-2和Pika都有明顯的光影。不過Pika看不出是為旅行者,MagicVideo-V2的色調更為豐富。

第二輪:情境劇情的表達。

1910 年代的情景喜劇,講述社會中的日常生活和瑣事
效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

這一輪明顯也是MagicVideo-V2、Gen-2更勝一籌。SVD-XT呈現的中景構圖,雖然年代展現出來了,但表達不夠。

第三輪:寫實。

小男孩在公園的小路上騎着自行車,車輪踩在碎石上發出嘎吱嘎吱的聲音.
效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

這次對比就更為明顯了。MagicVideo-V2和SVD-XT是完整展現出句子意思的,不過MagicVideo-V2可以看到小孩明顯腳在動的細節。

除此之外,研究人員還将MagicVideo-V2與當下最先方法進行一對一的人類評估。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

結果顯示,相較于其他方法,人們認為MagicVideo-V2的效果更好。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

(綠色、灰色和粉色條分别代表 MagicVideo-V2 被評價為更好、相當或較差的試驗效果。)

如何實作?

簡單來說,MagicVideo-V2是一條視訊生成流水線,內建了文本到圖像模型、視訊運動生成器、參考圖像嵌入子產品、插值子產品。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

首先是有T2I子產品首先根據文字生成1024×1024圖像,随後I2V子產品對該靜态圖像進行動畫處理,生成600×600×32的幀序列,然後再用V2V子產品增強,并完善視訊内容,最後再用插值子產品将序列擴充到94個幀。

這樣一來,既保證了高保真,時間上也有連續性。

不過早在2022年11月位元組曾推出了MagicVideo V1版。

效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡
效果超越Gen-2!位元組最新視訊生成模型,一句話讓綠巨人戴VR眼鏡

不過,當時更強調的是高效性,它能在單個GPU卡上生成256x256分辨率的視訊。

參考連結:

https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20

項目連結:

https://magicvideov2.github.io/

論文連結:

https://arxiv.org/abs/2401.04468

https://arxiv.org/abs/2211.11018

— 完 —

量子位 QbitAI · 頭條号簽

關注我們,第一時間獲知前沿科技動态約

繼續閱讀