文生視訊下一站，Meta已經開始視訊生視訊了

機器之心報道

編輯：小舟、大盤雞

文本指導的視訊到視訊（V2V）合成在各個領域具有廣泛的應用，例如短視訊創作以及更廣泛的電影行業。擴散模型已經改變了圖像到圖像（I2I）的合成方式，但在視訊到視訊（V2V）合成方面面臨維持視訊幀間時間一緻性的挑戰。在視訊上應用 I2I 模型通常會在幀之間産生像素閃爍。

為了解決這個問題，來自得州大學奧斯汀分校、Meta GenAI 的研究者提出了一種新的 V2V 合成架構 ——FlowVid，聯合利用了源視訊中的空間條件和時間光流線索（clue）。給定輸入視訊和文本 prompt，FlowVid 就可以合成時間一緻的視訊。

論文位址：https://huggingface.co/papers/2312.17681
項目位址：https://jeff-liangf.github.io/projects/flowvid/

總的來說，FlowVid 展示了卓越的靈活性，可與現有的 I2I 模型無縫協作，完成各種修改，包括風格化、對象交換和局部編輯。在合成效率上，生成 30 FPS、512×512 分辨率的 4 秒視訊僅需 1.5 分鐘，分别比 CoDeF、Rerender 和 TokenFlow 快 3.1 倍、7.2 倍和 10.5 倍，并且保證了合成視訊的高品質。

先來看下合成效果，例如，将視訊中的人物轉換成「希臘雕塑」的形态：

将吃竹子的大熊貓轉換成「國畫」的形式，再把大熊貓換成考拉：

跳跳繩的場景可以絲滑切換，人物也可以換成蝙蝠俠：

方法簡介

一些研究采用流來導出像素對應關系，進而産生兩幀之間的像素級映射，這種對應關系随後用于擷取遮擋掩碼或建構規範圖像。然而，如果流估計不準确，這種硬限制可能就會出現問題。

FlowVid 首先使用常見的 I2I 模型編輯第一幀，然後傳播這些編輯到連續幀，使得模型能夠完成視訊合成的任務。

具體來說，FlowVid 執行從第一幀到後續幀的流變形（flow warp）。這些變形的幀将遵循原始幀的結構，但包含一些遮擋區域（标記為灰色），如圖 2 (b) 所示。

如果使用流作為硬限制，例如修複遮擋區域，則不準确的估計将持續存在。是以，該研究嘗試引入額外的空間條件，例如圖 2 (c) 中的深度圖，以及時間流條件。聯合時空條件将糾正不完美的光流，進而得到圖 2 (d) 中一緻的結果。

研究者基于 inflated 空間控制 I2I 模型建構了一個視訊擴散模型。他們利用空間條件（如深度圖）和時間條件（流變形視訊）對模型進行訓練，以預測輸入視訊。

在生成過程中，研究者采用編輯 - 傳播程式：(1) 用流行的 I2I 模型編輯第一幀。(2) 使用本文模型在整個視訊中傳播編輯内容。解耦設計允許他們采用自回歸機制：目前批次的最後一幀可以是下一批次的第一幀，進而使其能夠生成冗長的視訊。

實驗及結果

細節設定

研究者使用 Shutterstock 的 100k 個視訊來訓練模型。對于每個訓練視訊，研究者按順序采樣 16 個間隔為 {2,4,8} 的幀，這些幀代表持續時間為 {1,2,4} 秒的視訊（視訊的 FPS 為 30）。所有圖像的分辨率都通過中心裁剪設定為 512×512。模型的訓練是在每個 GPU 上以 1 的批量大小進行的，總共使用 8 個 GPU，總批量大小為 8。實驗使用了 AdamW 優化器，學習率為 1e-5，疊代次數為 100k。

在生成過程中，研究者首先使用訓練好的模型生成關鍵幀，然後使用現成的幀插值模型（如 RIFE ）生成非關鍵幀。預設情況下，以 4 的間隔生成 16 個關鍵幀，相當于 8 FPS 下的 2 秒片段。然後，研究者使用 RIFE 将結果插值到 32 FPS。他們采用比例為 7.5 的無分類器引導，并使用 20 個推理采樣步驟。此外，研究者還使用了零信噪比（Zero SNR）噪聲排程器。他們還根據 FateZero ，融合了在對輸入視訊中的相應關鍵幀進行 DDIM 反轉時獲得的自注意力特征。

研究者從公開的 DAVIS 資料集中選取了 25 個以物體為中心的視訊，涵蓋人類、動物等。針對這些視訊，研究者人工設計了 115 個 prompt，範圍包括風格化到物體替換。此外，他們還收集了 50 個 Shutterstock 視訊，并為這些視訊設計了 200 個 prompt。研究者對以上視訊進行了定性和定量的比較。

定性結果

在圖 5 中，研究者定性地将本文方法與幾種代表性的方法進行了比較。當輸入視訊中的運動量較大時，CoDeF 産生的輸出結果會出現明顯的模糊，在男子的手和老虎的臉部等區域可以觀察到。Rerender 通常無法捕捉到較大的運動，如左側示例中的槳葉運動。TokenFlow 偶爾會難以按照提示進行操作，例如在左側示例中将男子變為海盜。相比之下，本文的方法在編輯能力和視訊品質方面更具優勢。

定量結果

研究者進行了一項人類評估，以将本文的方法與 CoDeF 、Rerender 和 TokenFlow 進行比較。研究者向參與者展示了四段視訊，并要求他們在考慮時間一緻性和文本對齊的情況下，找出哪段視訊的品質最好。詳細結果見表。本文方法取得了 45.7% 的偏好，優于其他三種方法。表 1 中還展示了各方法的管道運作時間，對比了它們的運作效率。本文方法（1.5 分鐘）快于 CoDeF（4.6 分鐘）、Rerender（10.8 分鐘）和 TokenFlow（15.8 分鐘），分别快 3.1 倍、7.2 倍和 10.5 倍。

消融實驗

研究者将圖 6（a）中的四種條件進行組合研究，分别是 (I) 空間控制：例如深度圖；(II) 流變形視訊：從第一幀使用光流變形的幀；(III) 流遮擋遮罩訓示哪些部分被遮擋（标記為白色）；(IV) 第一幀。

圖 6（b）中評估了這些條件的組合，通過與包含所有四種條件的完整模型的勝率來評估它們的有效性。由于缺乏時間資訊，純空間條件的勝率僅為 9%。加入流變形視訊後，勝率大幅提高至 38%，突出了時間引導的重要性。研究者使用灰色像素表示被遮擋的區域，這可能會與圖像中的原始灰色相混淆。為了避免可能出現的混淆，他們進一步加入了二進制流遮擋掩碼，更好地幫助模型識别哪部分被遮擋。勝率進一步提高到 42%。最後，研究者增加了第一幀條件，以提供更好的紋理引導，這在遮擋掩碼較大而原始像素剩餘較少時尤為有用。

研究者在 FlowVid 中研究了兩種類型的空間條件：canny 邊緣和深度圖。在圖 7（a）所示的輸入幀中，從熊貓的眼睛和嘴巴可以看出，canny 邊緣比深度圖保留了更多細節。空間控制的強度反過來會影響視訊編輯。在評估過程中，研究者發現，當希望盡可能保持輸入視訊的結構（如風格化）時，canny 邊緣效果更好。如果場景變化較大，如物體交換，需要更大的編輯靈活性時，深度圖的效果會更好。

如圖 8 所示，雖然 ϵ-prediction 通常用于擴散模型的參數化，但研究者發現它可能會出現不自然的跨幀全局色彩偏移。盡管這兩種方法都使用了相同的流變形視訊，但 ϵ-prediction 帶來了不自然的灰暗色彩。這種現象在圖像到視訊中也有發現。

局限

雖然 FlowVid 取得了顯著的性能，但也存在一些局限性。首先，FlowVid 嚴重依賴于第一幀的生成，而第一幀在結構上應與輸入幀保持一緻。如圖 9（a）所示，編輯後的第一幀将大象的後腿識别為前鼻子。錯誤的鼻子會傳播到下一幀，導緻最終預測結果不理想。其次，是當錄影機或物體移動得太快，以至于出現大面積遮擋時。在這種情況下，FlowVid 會猜測缺失的區域，甚至産生幻覺。如圖 9 (b) 所示，當芭蕾舞演員轉動身體和頭部時，整個身體部分都被遮擋住了。FlowVid 成功地處理了衣服，但卻将後腦勺變成了前臉，如果在視訊中顯示，這将十分驚悚。

更多詳細内容，請參閱原論文。

文生視訊下一站，Meta已經開始視訊生視訊了

繼續閱讀

向佐曬視訊回應向太催生三胎，客廳放充氣滑梯，郭碧婷素顔陪兒女

戴28萬表擋道後續！男子将起訴，完整視訊曝光，奧迪女車主要慌了

變态男砸毀黃家駒墓拍下短視訊，被抓後身份黑曆史被扒可氣又無奈

新車“價格戰”波及二手市場，行業遇冷！短視訊、直播賣車火了

李勝利聚會強行拖拽女性視訊曝光兩人體力懸殊畫面驚悚

賈躍亭吃早餐視訊又露餡了！美國部落客算出賈躍亭這頓早餐要花多少

華東政法大學校花：書香氣質與顔值巅峰的代表（文末有視訊彩蛋）

胖貓事件成巨大回旋镖，多位發聲主播删除視訊，茶百道捐100萬成笑話

鮑魚家姐、柏公子等多名百萬粉絲網紅被封号、禁言，田田小阿姨删除王紅權星相關視訊

病情惡化！巨星釋出視訊落淚，網友：永不放棄！

被指為涉嫌詐騙的元本學堂錄宣傳視訊，杜旭東回應了

iPhone16新更新追上Pro，這方面設計變了，有望支援空間視訊拍攝

網紅“王媽”團隊走紅史：00後主創大學期間拍短視訊月入70萬，23歲全款買保時捷卡宴

蘋果釋出緊急通知，要求更新 iPhone 避免詐騙視訊電話

千萬粉絲網紅“王媽”公司道歉！大學期間拍短視訊月入70萬，23歲全款買保時捷

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora