天天看點

騰訊又整活!一句話讓圖檔變動漫主角!

作者:漫威電影情報局
騰訊又整活!一句話讓圖檔變動漫主角!

撰稿 | 清竹

出品 | 51CTO技術棧(微信号:blog51cto)

2023年底,AI圈似乎已經被“文生視訊”模型攻占了!

11月底 AI 文生視訊工具 Pika 1.0 橫空出世、風頭一時無兩,日前斯坦福大學 AI 科學家李飛飛團隊聯合谷歌推出AI 視訊生成模型 W.A.L.T(Window Attention )繼續炸圈,近日,騰訊團隊帶着新作品來炸場了!

1、吊打黑馬AnimateDiff,實力碾壓

AnimateZero 是騰訊AI團隊釋出的一款視訊生成模型,它通過改進預訓練的視訊擴散模型(Video Diffusion Models),将視訊生成當作一種零樣本的圖像動畫問題,能夠更精确地控制視訊的外觀和運動。

據介紹,該模型的效果秒殺 Animatediff,并且能夠更好地相容現有的SD生态。口說無憑,先來看看 AnimateZero 生成的視訊效果如何?

AnimateZero 展示了在多個 T2I 模型上生成的個性化視訊。

比如由動漫人物的圖檔生成的視訊,人物動作流暢,還融入了眼睛變色、頭發蓬蓬的小細節:

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

再看看自然景觀的生成,沙灘上浪花的湧動、煙花的絢爛綻放、閃電襲來的氛圍感,都有種身臨其境的感覺。

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

AnimateZero 還示範了一種通過插入文本嵌入來控制視訊的動态效果:由圖像生成視訊後,再增加如“快樂+微笑”、“憤怒而嚴肅”、“張開嘴”、“非常悲傷”等文本,視訊人物就能呈現對應的情緒和動作。

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

除了在現有模型上生成個性化視訊,AnimateZero 是如何“秒殺”AnimateDiff 的?

AnimateZero 方面表示, AnimateDiff (AD)的一種常見用途是協助 ControlNet (CN) 進行視訊編輯,但它仍然存在域間隙問題。AnimateZero (AZ)在這方面具有明顯的優勢,即生成主觀品質更高、與給定文本提示比對度更高的視訊。

AnimateZero 官方也給出了視訊效果對比:根據原視訊生成在熔岩中遊泳的女孩,AnimateDiff 的視訊畫面比較模糊,熔岩的效果幾乎看不出來,對比之下,AnimateZero 的視訊無論是與文本的契合度還是畫面的美感,明顯優于AnimateDiff。

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

如果要将原視訊中的黑色汽車變成紅色呢?效果也顯而易見:

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

再來看看要求将原視訊變成在森林的草地上奔跑的小女孩,AnimateDiff生成的視訊既沒有呈現森林也沒有看到草地,隻是在背景牆和小女孩的頭發上呈現一些綠色,這顯然不符合要求;而AnimateZero的效果就好多了,和主題詞完美契合。

騰訊又整活!一句話讓圖檔變動漫主角!

圖檔

2、AnimateZero 到底強在哪?

AnimateZero是一種基于視訊擴散模型的零樣本圖像動畫生成器。傳統的視訊擴散模型(VDM)存在以下幾個問題:

  • 黑匣子:生成過程不透明
  • 低效且不可控:要獲得滿意的結果,需要大量的試錯
  • 域差距:受訓練期間使用的視訊資料集的域限制

AnimateZero 利用一種分步生成視訊的方法,将外觀和運動過程解耦,解決了傳統文本到視訊(T2V)擴散模型缺乏精确控制的問題。通過零樣本修改,還能将T2V模型轉換為I2V模型,使其成為零樣本圖像動畫生成器。

  • 解耦:視訊生成過程解耦為外觀(T2I)和運動過程(I2V)
  • 高效可控:T2I 生成相比 T2V 更加可控、高效,在 I2V 生成視訊之前可以獲得滿意的圖像
  • 緩解域差距問題:可以微調 T2I 模型的域以與實際域保持一緻,這比調整整個視訊模型更有效

圖檔

傳統視訊擴散模型(a) 和 AnimateZero 視訊生成模型 (b) 的對比

除了本身的創新之外,相比AnimateDiff,AnimateZero 有哪些優勢呢?

  • 更高的一緻性:在文本描述與生成視訊之間,以及T2I(文本到圖像)域與生成視訊之間,AnimateZero展示了更高的一緻性。
  • 多樣化應用:相比于AnimateDiff,AnimateZero支援更廣泛的個性化圖像域,并且能夠在不同風格(如真實風格、動漫風格)中表現更好。
  • 更強的動畫效果:在動畫品質和風格一緻性方面,AnimateZero優于AnimateDiff,尤其在處理複雜運動和不常見對象時表現出更好的性能。

再完美的模型也會有它的局限性,AnimateZero的性能受限于其基礎模型AnimateDiff的運動先驗。對于一些複雜運動(如體育運動)或不常見對象的動畫,AnimateZero的表現可能不盡如人意。另外由于AnimateZero是基于AnimateDiff的改進,是以其性能和應用範圍受到基礎模型的限制。

3、AI視訊生成模型大爆發

1年以前,ChatGPT 以迅雷不及掩耳之勢席卷全球,為文本創作領域帶來重大的變革;一年後,文生視訊賽道已成爆發态勢,國内外的玩家都紛紛“開卷”。

先看國外的科技巨頭:

11 月 3 日,Runway 宣布其 AI 視訊生成工具 Gen-2 更新,一周後,Runway 又釋出運動畫筆功能,強化視訊局部編輯能力;

11 月 16 日,科技巨頭 Meta 推出了文生視訊模型 Emu Video,首先生成以文本為條件的圖像,然後生成以文本和生成的圖像為條件的視訊。

Stability AI 當然也毫不示弱。11 月 29 日,Stability AI 推出了名為 Stable Video Diffusion 的視訊生成模型,提供 SVD 和 SVD-XT 兩個模型。

更有最近火爆出圈的 AI 創企 Pika Labs 推出網頁版 Pika 1.0,直接甩出體驗連結引爆市場。

國内方面,11月12日,中國科學院等機構的研究者11 月 21 日提出了一個無需訓練的文本生成視訊架構 GPT4Motion;11 月 18 日,位元組跳動推出了文生視訊模型 PixelDance,提出了基于文本指導 + 首尾幀圖檔指導的視訊生成方法,使得視訊生成的動态性更強;12月1日,阿裡的研究團隊提出新架構 Animate Anyone,支援從靜态圖像 AI 生成動态視訊;12月5日,美圖公司釋出的 AI 視覺大模型 MiracleVision 的 4.0 版本,主打設計和視訊能力。

4、紛紛加碼,“開卷”背後有何玄機?

那麼,AI視訊生成的技術和産品加速爆發,背後說明了什麼?

從技術層面來看,文生圖和文生視訊的人工智能模型有較高相似性,文生圖的技術和經驗可供文生視訊加以運用和參考是一個重要原因。

從市場情緒來看,近日95後女生以4人團隊打造Pika Labs,快速出圈刷屏,成立半年就獲得5500萬美元融資,估值2億美元。緊接着,也在A股上演了“父憑女貴”的戲碼,其父親所在的上市公司在這款工具爆火後連續收獲3個漲停。可見文生視訊領域的吸金能力空前巨大。

此外,國内頭部企業的技術積累已經具備條件。湖南大學資訊科學與工程學院博士生導師、教授張大方分析稱,文生視訊的人工智能模型參數為10億級别至100億級别,國内頭部企業已能熟練掌握上述技術。在加快改進模型、清洗學習資料、調整操作界面、優化内部參數的共同推動下,文生視訊技術已逐漸克服諸多不足,并快速進入商業化應用。

同時,從應用角度方面來看,AI生成視訊的前景毋庸置疑,影視、遊戲以及廣告等領域都是其落地的重要場景。艾媒咨詢CEO兼首席分析師張毅表示:“個性化的視訊制作更麻煩、成本更高,甚至超出了雇用程式員程式設計。不少行業都渴望有一款簡單的視訊生成工具。”

根據月狐iAPP統計的資料,從2022年Q2到今年6月,在移動網際網路的所有類别的APP中,短視訊的使用時長占比均高達30%以上,為所有類别中最高。這樣的需求,也一定程度表明在視訊制作領域蘊含着一個巨大增量的“蓄水池”。

客觀來看,雖然各大廠商企業競相加碼,但相關應用的優化疊代速度和商業化程序都較慢,大公司與初創團隊勢均力敵,文生視訊應用的潛力還沒有徹底被開發。如何找到視訊生成時長、效果、成本之間的平衡點,這依舊需要在各自不斷的實踐中尋求最優解。

參考連結:

https://vvictoryuki.github.io/animatezero.github.io/

https://www.chinaz.com/2023/1212/1582268.shtml

https://baijiahao.baidu.com/s?id=1785065486791669561&wfr=spider&for=pc

來源: 51CTO技術棧

繼續閱讀