天天看點

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

上周,Meta 公布了一個能夠生成高品質短視訊的工具——Make-A-Video,利用這款工具生成的視訊非常具有想象力。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

當然,谷歌也不甘示弱。剛剛,該公司 CEO Sundar Pichai 親自安利了他們在這一領域的最新成果:兩款文本轉視訊工具——Imagen Video 與 Phenaki。前者主打視訊品質,後者主要挑戰視訊長度,可以說各有千秋。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

下面這個洗盤子的泰迪熊就是用 Imagen Video 生成的,可以看到,畫面的分辨率和連貫性都有一定的保障。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

下面這個片段是由 Phenaki 生成的,視訊長達 2.5 分鐘。可以看出,模型對于長 prompt 的解析非常出色。

這段視訊的prompt為:「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom out quickly to show the coastal city. Zoom out quickly from the coastal city.」

1

『Imagen Video:給出文本提示,生成高清視訊』

生成式模組化在最近的文本到圖像 AI 系統中取得了重大進展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特别地,擴散模型在密度估計、文本到語音、圖像到圖像、文本到圖像和 3D 合成等多種生成式模組化任務中取得了巨大成功。

谷歌想要做的是從文本生成視訊。以往的視訊生成工作集中于具有自回歸模型的受限資料集、具有自回歸先驗的潛變量模型以及近來的非自回歸潛變量方法。擴散模型也已經展示出了出色的中等分辨率視訊生成能力。

在此基礎上,谷歌推出了 Imagen Video,它是一個基于級聯視訊擴散模型的文本條件視訊生成系統。給出文本提示,Imagen Video 就可以通過一個由 frozen T5 文本編碼器、基礎視訊生成模型、級聯時空視訊超分辨率模型組成的系統來生成高清視訊。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

論文位址:https://imagen.research.google/video/paper.pdf

在論文中,谷歌較長的描述了如何将該系統擴充為一個高清文本轉視訊模型,包括某些分辨率下選擇全卷積時空超分辨率模型以及選擇擴散模型的 v 參數化等設計決策。谷歌還将以往基于擴散的圖像生成研究成果成功遷移到了視訊生成設定中。

谷歌發現,Imagen Video 能夠将以往工作生成的 24fps 64 幀 128×128 視訊提升至 128 幀 1280×768 高清視訊。此外,Imagen Video 還具有高度的可控性和世界知識,能夠生成多樣化藝術風格的視訊和文本動畫,還具備了 3D 對象了解能力。

讓我們再來欣賞一些 Imagen Video 生成的視訊,比如開車的熊貓:

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

遨遊太空的木船:

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

更多生成視訊請參閱:https://imagen.research.google/video/

方法與實驗

整體而言,谷歌的視訊生成架構是七個子視訊擴散模型的級聯,它們相應執行文本條件視訊生成、空間超分辨率和時間超分辨率。借助整個級聯,Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高清視訊(約 1.26 億像素)。

與此同時,在漸進式蒸餾的幫助下,Imagen Video 的每個子模型中僅使用八個擴散步驟就能生成高品質視訊。這将視訊生成時間加快了大約 18 倍。

下圖 6 展示了 Imagen Video 的整個級聯 pipeline,包括 1 個 frozen 文本編碼器、1 個基礎視訊擴散模型以及 3 個空間超分辨率(SSR)和 3 個時間超分辨率(TSR)模型。這七個視訊擴散模型共有 116 億參數。

在生成過程中,SSR 模型提高了所有輸入幀的空間分辨率,同時 TSR 模型通過在輸入幀之間填充中間幀來提高時間分辨率。所有模型同時生成一個完整的幀塊,這樣 SSR 模型不會遭受明顯的僞影。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

Imagen Video 建構在視訊 U-Net 架構之上,具體如下圖 7 所示。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

在實驗中,Imagen Video 在公開可用的 LAION-400M 圖像文本資料集、1400 萬個視訊文本對和 6000 萬個圖像文本對上進行訓練。結果正如上文所述,Imagen Video 不僅能夠生成高清視訊,還具備一些純從資料中學習的非結構化生成模型所沒有的獨特功能。

下圖 8 展示了 Imagen Video 能夠生成具有從圖像資訊中學得的藝術風格的視訊,例如梵高繪畫風格或水彩畫風格的視訊。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

下圖 9 展示了 Imagen Video 對 3D 結構的了解能力,它能夠生成旋轉對象的視訊,同時物體的大緻結構也能保留。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

下圖 10 展示了 Imagen Video 能夠可靠地生成各種動畫樣式的文本,其中一些使用傳統工具很難來制作。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

更多實驗細節請參閱原論文。

2

『Phenaki:你講故事我來畫』

我們知道,雖然從本質上講,視訊就是一系列圖像,但生成一個連貫的長視訊并沒有那麼容易,因為在這項任務中,可用的高品質資料非常少,而且任務本身的計算需求又很大。

更麻煩的是,像之前那種用于圖像生成的簡短文本 prompt 通常不足以提供對視訊的完整描述,視訊需要的是一系列 prompt 或故事。理想情況下,一個視訊生成模型必須能夠生成任意長度的視訊,并且要能根據某個時刻 t 的 prompt 變化調節生成的視訊幀。隻有具備這樣的能力,模型生成的作品才能稱之為「視訊」,而不是「移動的圖像」,并開啟在藝術、設計和内容創作方面的現實創意應用之路。

谷歌等機構的研究人員表示,「據我們所知,基于故事的條件視訊生成之前從未被探索過,這是第一篇朝着該目标邁進的早期論文。」

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...
  • 論文連結:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
  • 項目連結:https://phenaki.github.io/#interactive

由于沒有基于故事的資料集可以拿來學習,研究人員沒有辦法簡單地依靠傳統深度學習方法(簡單地從資料中學習)完成這些任務。是以,他們專門設計了一個模型來完成這項任務。

這個新的文本轉視訊模型名叫 Phenaki,它使用了「文本轉視訊」和「文本轉圖像」資料聯合訓練。該模型具有以下能力:

1、在開放域 prompt 的條件下生成時間上連貫的多樣化視訊,即使該 prompt 是一個新的概念組合(見下圖 3)。生成的視訊可以長達幾分鐘,即使該模型訓練所用的視訊隻有 1.4 秒(8 幀 / 秒)

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

2、根據一個故事(即一系列 prompt)生成視訊,如下圖 1 和圖 5 所示:

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...
【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

從以下動圖中我們可以看到 Phenaki 生成視訊的連貫性和多樣性:

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...
【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...

要實作這些功能,研究人員無法依賴現有的視訊編碼器,因為這些編碼器要麼隻能解碼固定大小的視訊,要麼獨立編碼幀。為了解決這個問題,他們引入了一種新的編碼器 - 解碼器架構——C-ViViT。

C-ViViT 可以:

  • 利用視訊中的時間備援來提高每幀模型的重構品質,同時将視訊 token 的數量壓縮 40% 或更多;
  • 在給定因果結構的情況下,允許編碼和解碼可變長度視訊。

PHENAKI 模型架構

受之前自回歸文本轉圖像、文本轉視訊研究的啟發,Phenaki 的設計主要包含兩大部分(見下圖 2):一個将視訊壓縮為離散嵌入(即 token)的編碼器 - 解碼器模型和一個将文本嵌入轉換為視訊 token 的 transformer 模型。

【深度學習】圖像生成卷膩了,谷歌全面轉向文字→視訊生成,兩大利器同時挑戰分辨率和長度...