天天看點

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

作者:機器之心Pro

機器之心專欄

機器之心編輯部

Animate124,輕松将單張圖檔變成 3D 視訊。

近一年來,DreamFusion 引領了一個新潮流,即 3D 靜态物體與場景的生成,這在生成技術領域引發了廣泛關注。回顧過去一年,我們見證了 3D 靜态生成技術在品質和控制性方面的顯著進步。技術發展從基于文本的生成起步,逐漸融入單視角圖像,進而發展到整合多種控制信号。

與此相較,3D 動态場景生成仍處于起步階段。2023 年初,Meta 推出了 MAV3D,标志着首次嘗試基于文本生成 3D 視訊。然而,受限于開源視訊生成模型的缺乏,這一領域的進展相對緩慢。

然而,現在,基于圖文結合的 3D 視訊生成技術已經問世!

盡管基于文本的 3D 視訊生成能夠産生多樣化的内容,但在控制物體的細節和姿态方面仍有局限。在 3D 靜态生成領域,使用單張圖檔作為輸入已經能夠有效重建 3D 物體。由此受到啟發,來自新加坡國立大學(NUS)和華為的研究團隊提出了 Animate124 模型。該模型結合單張圖檔和相應的動作描述,實作了對 3D 視訊生成的精準控制。

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊
  • 項目首頁: https://animate124.github.io/
  • 論文位址: https://arxiv.org/abs/2311.14603
  • Code: https://github.com/HeliosZhao/Animate124
隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

核心方法

方法概括

根據靜态和動态,粗糙和精細優化,本文将 3D 視訊生成分為了 3 個階段:1)靜态生成階段:使用文生圖和 3D 圖生圖擴散模型,從單張圖像生成 3D 物體;2)動态粗糙生成階段:使用文生視訊模型,根據語言描述優化動作;3) 語義優化階段:額外使用個性化微調的 ControlNet,對第二階段語言描述對外觀造成的偏移進行優化改善。

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

圖 1. 整體架構

靜态生成

本文延續 Magic123 的方法,使用文生圖(Stable Diffusion)和 3D 圖生圖(Zero-1-to-3)進行基于圖檔的靜态物體生成:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

對于條件圖檔所對應的視角,額外使用損失函數進行優化:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

通過上述兩個優化目标,得到多視角 3D 一緻的靜态物體(此階段在架構圖中省略)。

動态粗糙生成

此階段主要使用文生視訊擴散模型,将靜态 3D 視為初始幀,根據語言描述生成動作。具體來說,動态 3D 模型(dynamic NeRF)渲染連續時間戳的多幀視訊,并将此視訊輸入文生視訊擴散模型,采用 SDS 蒸餾損失對動态 3D 模型進行優化:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

僅使用文生視訊的蒸餾損失會導緻 3D 模型遺忘圖檔的内容,并且随機采樣會導緻視訊的初始和結束階段訓練不充分。是以,本文的研究者們對開始和結束的時間戳進行過采樣。并且,在采樣初始幀時,額外使用靜态函數進行優化(3D 圖生圖的 SDS 蒸餾損失):

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

是以,此階段的損失函數為:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

語義優化

即使采用了初始幀過采樣并且對其額外監督,在使用文生視訊擴散模型的優化過程中,物體的外觀仍然會受到文本的影響,進而偏移參考圖檔。是以,本文提出了語義優化階段,通過個性化模型對語義偏移進行改善。

由于僅有單張圖檔,無法對文生視訊模型進行個性化訓練,本文引入了基于圖文的擴散模型,并對此擴散模型進行個性化微調。此擴散模型應不改變原有視訊的内容和動作,僅對外觀進行調整。是以,本文采用 ControlNet-Tile 圖文模型,使用上一階段生成的視訊幀作為條件,根據語言進行優化。ControlNet 基于 Stable Diffusion 模型,隻需要對 Stable Diffusion 進行個性化微調(Textual Inversion),即可提取參考圖像中的語義資訊。個性化微調之後,将視訊視為多幀圖像,使用 ControlNet 對單個圖像進行監督:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

另外,因為 ControlNet 使用粗糙的圖檔作為條件,classifier-free guidance (CFG) 可以使用正常範圍(10 左右),而不用與文生圖以及文生視訊模型一樣使用極大的數值(通常是 100)。過大的 CFG 會導緻圖像過飽和,是以,使用 ControlNet 擴散模型可以緩解過飽和現象,實作更優的生成結果。此階段的監督由動态階段的損失和 ControlNet 監督聯合而成:

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

實驗結果

作為第一個基于圖文的 3D 視訊生成模型,本文與兩個 baseline 模型和 MAV3D 進行了比較。與其他方法相比,Animate124 有更好的效果。

可視化結果比較

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

圖 2. Animate124 與兩個 baseline 比較

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

圖 3.1. Animate124 與 MAV3D 文生 3D 視訊比較

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

圖 3.1. Animate124 與 MAV3D 圖生 3D 視訊比較

量化結果比較

本文使用 CLIP 和人工評價生成的品質,CLIP 名額包括與文本的相似度和檢索準确率,與圖檔的相似度,以及時域一緻性。人工評價名額包括與文本的相似度,與圖檔的相似度,視訊品質,動作真實程度以及動作幅度。人工評價表現為單個模型與 Animate124 在對應名額上選擇的比例。

與兩個 baseline 模型相比,Animate124 在 CLIP 和人工評價上均取得更好的效果。

隻需一張圖檔、一句動作指令,Animate124輕松生成3D視訊

表 1. Animate124 與兩個 baseline 量化比較

總結

Animate124 是首個根據文本描述,将任意圖檔變成 3D 視訊的方法。其采用多種擴散模型進行監督和引導,優化 4D 動态表征網絡,進而生成高品質 3D 視訊。

繼續閱讀