谷歌AI生成視訊兩連發：720p高清+長鏡頭，網友：對短視訊行業沖擊太大

夢晨 Pine 量子位 | 公衆号 QbitAI 量子位

内容生成AI進入視訊時代！

Meta釋出「用嘴做視訊」僅一周，谷歌CEO劈柴哥接連派出兩名選手上場競争。

第一位Imagen Video與Meta的Make-A-Video相比突出一個高清，能生成1280*768分辨率、每秒24幀的視訊片段。

另一位選手Phenaki，則能根據200個詞左右的提示語生成2分鐘以上的長鏡頭，講述一個完整的故事。

網友看過後表示，這一切進展實在太快了。

也有網友認為，這種技術一旦成熟，會沖擊短視訊行業。

那麼，兩個AI具體有什麼能力和特點，我們分别來看。

Imagen Video：了解藝術風格與3D結構

Imagen Video同樣基于最近大火的擴散模型，直接繼承自5月份的圖像生成SOTA模型Imagen。

除了分辨率高以外，還展示出三種特别能力。

首先它能了解并生成不同藝術風格的作品，如“水彩畫”或者“像素畫”，或者直接“梵高風格”。

它還能了解物體的3D結構，在旋轉展示中不會變形。

最後它還繼承了Imagen準确描繪文字的能力，在此基礎上僅靠簡單描述産生各種創意動畫，

這效果，直接當成一個視訊的片頭不過分吧？

除了應用效果出色以外，研究人員表示其中用到的一些優化技巧不光對視訊生成有效，可以泛化至一般擴散模型。

具體來說，Imagen Video是一系列模型的集合。

語言模型部分是谷歌自家的T5-XXL，訓練好後當機住文本編碼器部分。

與負責從文本特征映射到圖像特征的CLIP相比，有一個關鍵不同：

語言模型隻負責編碼文本特征，把文本到圖像轉換的工作丢給了後面的視訊擴散模型。

基礎模型，在生成圖像的基礎上以自回歸方式不斷預測下一幀，首先生成一個48*24、每秒3幀的視訊。

接下來，一系列空間超分辨率（Spatial Super-Resolution）與時間超分辨率（Temporal Super-Resolution）模型接連對視訊做擴充處理。

所有7種擴散模型都使用了v-prediction parameterization方法，與傳統方法相比在視訊場景中可以避免顔色偏移。

這種方法擴充到一般擴散模型，還使樣本品質名額的收斂速度更快。

此外還有漸進式蒸餾（Progressive Distillation），将每次疊代所需的采樣步驟減半，大大節省顯存消耗。

這些優化技巧加起來，終于使生成高清視訊成為可能。

Phenaki：人人都能是“導演”

Phenaki的論文投了ICLR 2023會議，在一周前Meta釋出Make-a-video的時候還是匿名雙盲評審狀态。

如今資訊公開，原來研究團隊同樣來自谷歌。

在公開的資訊中，Phenaki展示了它互動生成視訊的能力，可以任意切換視訊的整體風格：高清視訊/卡通，還能夠切換任意場景。

還可以向Phenaki輸入一個初始幀以及一個提示，便能生成一段視訊。

這都還是開胃小菜，Phenaki真正的大招是：講故事，它能夠生成2分鐘以上的長視訊，通過輸入長達200多個字元的系列提示來得到。

（那有了這個模型，豈不是人人都能當導演了？手動狗頭）

從文本提示到視訊，計算成本高、高品質文本視訊資料數量有限以及視訊長度可變一直以來都是此類模型發展的難題。

以往的大多數AI模型都是通過單一的提示來生成視訊，但若要生成一個長時間并且連貫的視訊這遠遠不夠。

而Phenaki則能生成2分鐘以上的視訊，并且還具備故事情節，這主要歸功于它能夠根據一系列的提示來生成視訊的能力。

具體來說，研究人員引入了一個新的因果模型來學習表示視訊：将視訊視作圖像的一個時間序列。

這個模型基于transformer，可以将視訊分解成離散的小表示，而分解視訊則是按照時間的因果順序來進行的。

再講通俗一點，就是通過空間transformer将單個提示進行編碼，随後再用因果transformer将多個編碼好的提示串聯起來。

一個提示生成一段視訊，這樣一來，視訊序列便可以沿着提示中描述的時間序列将整個“故事”串在一起。

因為将視訊壓縮為離散的圖像序列，這樣也大大減少了AI處理标記視訊的數量，在一定程度上降低了模型的訓練成本。

提到模型訓練，和大型圖像系統一樣，Phenaki也主要使用文本-圖像資料進行訓練，此外，研究人員還用1.4秒，幀率8FPS的短視訊文本對Phenaki進行訓練。

僅僅通過對大量圖像文本對以及少量視訊文本例子進行聯合訓練，便能達到突破視訊資料集的效果。

Imagen Video和Phenaki，谷歌接連放出大招，從文本到視訊的AI發展勢頭迅猛。

值得一提的是，Imagen Video一作表示，兩個團隊将合作進行下一步研究。

嗯，有的網友已經等不及了。

One More Thing

出于安全和倫理的考慮，谷歌暫時不會釋出兩個視訊生成模型的代碼或Demo。

不過既然發了論文，出現開源複刻版本也隻是時間問題。

畢竟當初Imagen論文出來沒幾個月，GitHub上就出現了Pytorch版本。

另外Stable Diffusion背後的StabilityAI創始人兼CEO也說過，将釋出比Meta的Make-A-Video更好的模型，而且是大家都能用上的那種。

當然，每次AI有了新進展後都會不可避免地碰到那個話題——AI會不會取代人類。

目前來說，一位影視行業的工作者表示還不到時候：

老實說，作為一個在電影行業工作了十年的人，這個話題令人沮喪。

在他看來，目前的視訊生成AI在外行看起來已經足夠驚豔，不過業内人士會認為AI還缺乏對每一個鏡頭的精細控制。

對于這個話題，StabilityAI新任首席資訊官Daniel Jeffries此前撰文表示，AI最終會帶來更多的工作崗位。

如相機的發明雖然取代了大部分肖像畫家，但也創造了攝影師，還開辟了電影和電視這樣的全新産業。

5年後再回看的話，反對AI就像現在反對Photoshop一樣奇怪，AI隻不過是另一個工具。

Jeffries稱未來是環境人工智能（Ambient AI）的時代，各個行業、各個領域都會在人工智能的加持下進行發展。

不過現在我們需要的是一個更開放的人工智能環境，也就是說：開源！

最後，如果你現在就想玩一下AI生成視訊的話，可以先到HuggingFace上試試清華與智源實驗室的Cogvideo。

Imagen：https://imagen.research.google/video/

Phenaki：https://phenaki.github.io

Cogvideo試玩：https://huggingface.co/spaces/THUDM/CogVideo

參考連結：

[1]https://twitter.com/sundarpichai/status/1578162216335179778

[2]https://twitter.com/hojonathanho/status/1577713864812236817

[3]https://news.ycombinator.com/item?id=33098704

[4]https://danieljeffries.substack.com/p/the-turning-point-for-truly-open

谷歌AI生成視訊兩連發：720p高清+長鏡頭，網友：對短視訊行業沖擊太大

夢晨 Pine 量子位 | 公衆号 QbitAI 量子位

Imagen Video：了解藝術風格與3D結構

Phenaki：人人都能是“導演”

One More Thing

—THE END—

繼續閱讀

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

UVA 519 Puzzle (II)

磁盤結構及在Linux中的命名

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普