白交發自凹非寺

量子位 | 公衆号 QbitAI

一句話，就讓綠巨人戴上VR眼鏡。

4K畫質那種。

熊貓的奇幻漂流~

這是位元組最新的AI視訊生成模型MagicVideo-V2，各種奇思妙想的想法都能實作。它不僅支援4K、8K超高分辨率，輕松hold各種繪圖風格。

△從左往右：油畫風、賽博風、設計風

測評效果超過Gen-2、Pika以及現有AI視訊生成工具。

結果上線不到24小時就引發衆人圍觀，比如一條推文就有近20萬浏覽量。

不少網友驚訝其效果，甚至直言：比runway和pika還要好。

“比runway和pika還要好”

研究人員也的确進行了實際的效果比較。選手分别為：MagicVideo-V2、StabilityAI的SVD-XT，新潛力玩家Pika1.0，以及Runway的Gen-2。

第一輪：光影效果。

夕陽西下，旅行者獨自行走在迷霧森林中。

（從左到右依次是：MagicVideo-V2、SVD-XT，右上Pika，右下Gen-2，下同）

可以看到，MagicVideo-V2、Gen-2和Pika都有明顯的光影。不過Pika看不出是為旅行者，MagicVideo-V2的色調更為豐富。

第二輪：情境劇情的表達。

1910 年代的情景喜劇，講述社會中的日常生活和瑣事

這一輪明顯也是MagicVideo-V2、Gen-2更勝一籌。SVD-XT呈現的中景構圖，雖然年代展現出來了，但表達不夠。

第三輪：寫實。

小男孩在公園的小路上騎着自行車，車輪踩在碎石上發出嘎吱嘎吱的聲音.

這次對比就更為明顯了。MagicVideo-V2和SVD-XT是完整展現出句子意思的，不過MagicVideo-V2可以看到小孩明顯腳在動的細節。

除此之外，研究人員還将MagicVideo-V2與當下最先方法進行一對一的人類評估。

結果顯示，相較于其他方法，人們認為MagicVideo-V2的效果更好。

（綠色、灰色和粉色條分别代表 MagicVideo-V2 被評價為更好、相當或較差的試驗效果。）

如何實作？

簡單來說，MagicVideo-V2是一條視訊生成流水線，內建了文本到圖像模型、視訊運動生成器、參考圖像嵌入子產品、插值子產品。

首先是有T2I子產品首先根據文字生成1024×1024圖像，随後I2V子產品對該靜态圖像進行動畫處理，生成600×600×32的幀序列，然後再用V2V子產品增強，并完善視訊内容，最後再用插值子產品将序列擴充到94個幀。

這樣一來，既保證了高保真，時間上也有連續性。

不過早在2022年11月位元組曾推出了MagicVideo V1版。

不過，當時更強調的是高效性，它能在單個GPU卡上生成256x256分辨率的視訊。

參考連結：

https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20

項目連結：

https://magicvideov2.github.io/

論文連結：

https://arxiv.org/abs/2401.04468

https://arxiv.org/abs/2211.11018

— 完 —

量子位 QbitAI · 頭條号簽

關注我們，第一時間獲知前沿科技動态約

效果超越Gen-2！位元組最新視訊生成模型，一句話讓綠巨人戴VR眼鏡

“比runway和pika還要好”

如何實作？

繼續閱讀

浮力計算8大計算模型

胖貓女友譚竹發視訊回應稱：很後悔想和胖貓和好，求胖貓回來！

鬧大了！疑似“胖貓”女友譚竹釋出視訊公開道歉，網友卻紛紛舉報

10版紅樓夢賈寶玉海選視訊被扒：19歲陳曉眼裡有星星！黃軒瘦成猴

遊泳教練水中憋氣死亡，死亡過程視訊曝光：太可憐，多人見死不救

痛心！遊泳教練被看着淹死，其姐姐還原經過：從業人員拍視訊嬉笑

疑似“胖貓”女友譚竹釋出視訊公開道歉并直播，遭網友反手舉報

笑麻了，90後拍視訊創業2天入賬74萬！網友：我都上市兩天了

網傳譚竹道歉視訊？看完聊天記錄你還敢說她無辜？毀三觀！下頭！

越鬧越大！司機強迫美女乘客合影，美女發視訊回應了，評論區炸鍋

都是洞公布媳婦完整的生産視訊，過程有感動有不易，兒女雙全值了

鬧大了！“眼鏡男”毆打警察真相曝光，網友：不是警察太慫！

愛刷短視訊的孩子，正在逐漸失去耐心，家長一定要注意！建議收藏

沒有反轉！21歲胖貓打撈原視訊曝光，漂了十多天，畫面令人心疼！

沉浸式詐騙，“蛋仔派對”客服，視訊教唆9歲小孩操作，官方回應

越鬧越大！外國男子在五星級酒店大堂小便，視訊曝光，網友開噴了