天天看點

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

作者:新智元

編輯:LRS

【新智元導讀】文本到2維圖像、2維視訊、3維模型,現在終于發展到3維模型視訊了!

AI生成模型在過去這段時間裡取了巨大的進展,就圖像領域來說,使用者可以通過輸入自然語言提示來生成圖像(如DALL-E 2,Stable Diffusion),也可以在時間次元上擴充生成連續的視訊(如Phenaki),或者在空間次元上擴充直接生成3D模型(如Dreamfusion)。

但到目前為止,這些任務仍然處于孤立的研究狀态,彼此之間不存在技術交集。

最近Meta AI的研究人員結合了視訊和三維生成模型的優勢,提出了一個全新的文本到四維(三維+時間)生成系統MAV3D(MakeA-Video3D),将自然語言描述作為輸入,并輸出一個動态的三維場景表示,可以從任意的視角進行渲染。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

論文連結:https://arxiv.org/abs/2301.11280

項目連結:https://make-a-video3d.github.io/

MAV3D也是第一個可以根據給定文本描述來生成三維動态場景的模型。

文中提出的方法使用了一個4D 動态神經輻射場(NeRF) ,通過查詢基于文本到視訊(T2V)擴散的模型來優化場景表現、密度和運動一緻性,由提供的文本生成的動态視訊輸出可以從任何錄影機的位置和角度觀看,并且可以合成到任意的3D環境中。

該方法可用于為視訊遊戲、視覺效果或增強型和虛拟現實生成3D資産。

與圖像生成和視訊生成任務不同的是,網際網路上有大量的caption資料可供訓練,但卻連一個現成的4D模型集合都沒有。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

柯基玩球

MAV3D的訓練不需要任何3D或4D資料,T2V 模型隻需要在文本-圖像對和未标記的視訊上進行訓練。

在實驗部分,研究人員進行了全面的定量和定性實驗以證明該方法的有效性,對之前建立的内部基線有明顯提升。

文本到4D動态場景

由于缺乏訓練資料,研究人員為了解決這個任務構想了幾種思路。

一種方法可能是找到一個預先訓練好的二維視訊生成器,并從生成的視訊中提煉出一個四維重建。不過從視訊中重建可變形物體的形狀仍然是一個非常具有挑戰性的問題,即非剛性運動結構(Non-Rigid Structure from Motion, NRSfM)。

如果給定物體的多個同步視點(multiple simultaneous viewpoints),任務就變得簡單了。雖然多機位設定在真實資料中很少見,但研究人員認為,現有的視訊生成器隐含了生成場景的任意視點模型。

也就是說,可以将視訊生成器作為一個「統計學」的多錄影機設定來重建可變形物體的幾何和光度。

MAV3D算法通過優化動态神經輻射場(NeRF)與将輸入文本解碼成視訊,對物體周圍的随機視點進行采樣來實作該目的。

直接使用視訊生成器來優化動态NeRF并沒有取得令人滿意的結果,實作過程中還有幾個難題需要攻克:

1. 需要一個有效的、端到端可學習的動态三維場景表征;

2. 需要一個有監督學習的資料源,因為目前并不存在大規模的(文本,4D)對的資料集可供學習;

3. 需要在空間和時間次元上擴充輸出的分辨率,因為4D輸出需要大量的記憶體和計算能力;

MAV3D模型

MAV3D模型基于神經輻射場(NeRFs)的最新工作,結合了高效(靜态)NeRFs和動态NeRFs中的成果,并将4D場景表示為六個多分辨率特征平面的集合。

為了在沒有相應(文本、4D)資料的情況下監督這種表示,研究人員提出了一個用于動态場景渲染的多階段訓練pipeline,并證明了每個元件在實作高品質結果中的重要性。

一個比較關鍵的觀察結果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接優化動态場景會導緻視覺僞影和次優收斂。

是以研究人員選擇首先利用文本到圖像(T2I)模型,将靜态的三維場景與文本提示相比對,随後再用動态的方式增強三維場景模型。

此外,模型中還引入了一個新的temporal-aware SDS損失和運動正則項,通過實驗證明了其對現實中和具有挑戰性的運動至關重要。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

并且通過一個額外的temporal-aware超分辨率微調階段擴充到更高分辨率的輸出。

最後使用T2V模型的超級分辨率子產品的SDS來獲得高分辨率的梯度資訊來進行有監督學習三維場景模型,增加其視覺保真度,能夠在推理過程中對更高分辨率的輸出進行采樣。

實驗部分

評價名額

使用CLIP R-Precision來評估生成的視訊,可以用于衡量文本和生成場景之間的一緻性,可以反應輸入提示從渲染的架構中的檢索準确性。研究人員使用CLIP的ViT-B/32變體,并在不同的視圖和時間步中提取幀。

除此之外還使用了四個定性名額,通過詢問人類标注員在兩個生成的視訊中的偏好,可以得出(i)視訊品質;(ii)對文本提示的忠實度;(iii)運動量;以及(iv)運動的真實性。

Text-to-4D對比

由于之前沒有文字轉4D的方法,是以研究人員建立了三個基于T2V生成方法的基線用于對比,二維幀的序列就會用三種不同的方法轉化為三維場景表示的序列。

第一個序列是通過one-shot神經場景渲染器(Point-E)得到;第二個是通過對每一幀獨立應用pixelNeRF生成的;第三個是應用D-NeRF結合使用COLMAP提取的相機位置。

可以看出,該方法在客觀的R-精度名額上超過了基線模型,并且在所有名額上都得到了人類标注員更高的評價。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

此外,研究人員還探索了該方法在不同相機視角下的表現。

消融實驗

1、 在沒有場景超分辨率(SR)微調的情況下訓練的模型,其步驟數與MAV3D相同(階段3)的情況下,人類标注員在品質、文本對齊和運動方面都更傾向于選擇用SR訓練的模型。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

此外,超分辨率微調增強了渲染視訊的品質,使高分辨率視訊具有更精細的細節和更少的噪音。

Meta釋出首個基于文本的4D視訊合成器:3D遊戲模組化師也要下崗了?

2、無預訓練:在直接優化動态場景(沒有靜态場景預訓練)的步驟與MAV3D相同的情況下,結果是場景品質低得多或收斂性差:在73%和65%的情況下,用靜态預訓練的模型在視訊品質和現實運動方面更受歡迎。

參考資料:

https://arxiv.org/abs/2301.11280

繼續閱讀