天天看點

AI 編輯視訊!這特效太逆天了!代碼開源 SIGGRAPH Asia 2021

大家好,我是阿潘,今天給大家分享一篇最新的成果《Layered Neural Atlases for Consistent Video Editing》,可以用于視訊編輯,從demo來看,可以實作的效果包括删除視訊中的物體、可以對視訊内的物體進行編輯、風格化遷移等等,效果非常的驚豔。

論文标題:​

Layered Neural Atlases for Consistent Video Editing

【上次分享論文】NeROIC: Neural Object Capture and Rendering from Online Image Collections

論文、代碼和首頁連結:

​​https://arxiv.org/abs/2109.11418 ​​

​​https://github.com/ykasten/layered-neural-atlases​​

​​https://layered-neural-atlases.github.io/ ​​

AI 編輯視訊!這特效太逆天了!代碼開源 SIGGRAPH Asia 2021

效果:​

AI 編輯視訊!這特效太逆天了!代碼開源 SIGGRAPH Asia 2021

上面是一些視訊編輯的應用示例。

從上往下分别實作的效果是:

第一行:對沖浪者腳下的水花添加特效

第二行 :對河面上的鴨子(可能是鴨子吧)添加特效

第三行:對騎車男孩周圍的環境施加特效

第四行:對狗做标記

(a) 各種編輯效果直接應用于我們的輸出圖集(頂部 4)或給定的視訊幀(底部);這些效果包括風格化前景對象 (Blackswan) 或背景 (Bicycle)、轉移紋理元素 (Kite-surf、Libby) 或将靜止圖像轉移到移動背景 (Boat)。在所有情況下,編輯都會自動且一緻地映射到原始視訊幀。有關這些編輯的視訊示例,請參閱補充材料。

更多效果:

摘要

​我們提出了一種将輸入視訊分解或“展開”為一組分層 2D 圖集的方法,每個圖集都提供了視訊上對象(或背景)外觀的統一表示。對于視訊中的每個像素,我們的方法會在每個圖集中估計其對應的 2D 坐标,進而為我們提供一緻的視訊參數化以及相關的 alpha(不透明度)值。重要的是,我們将地圖集設計為可解釋和語義化的,這有助于在地圖集域中輕松直覺地進行編輯,而所需的手動工作最少。應用于單個 2D 圖集(或輸入視訊幀)的編輯會自動且一緻地映射回原始視訊幀,同時保留遮擋、變形和其他複雜的場景效果,例如陰影和反射。我們的方法采用基于坐标的多層感覺器 (MLP) 表示,用于映射、圖譜和 alpha,它們在每個視訊的基礎上聯合優化,使用視訊重建和正則化損失的組合。通過純粹在 2D 中操作,我們的方法不需要任何關于場景幾何或相機姿勢的先驗 3D 知識,并且可以處理複雜的動态現實世界視訊。我們示範了各種視訊編輯應用程式,包括紋理映射、視訊風格傳輸、圖像到視訊紋理傳輸和分割/标簽傳播,所有這些都是通過編輯單個 2D 圖集圖像自動生成的。

整體思路

架構圖:

AI 編輯視訊!這特效太逆天了!代碼開源 SIGGRAPH Asia 2021

圖 2. 我們的兩個圖集的管道示意圖:視訊 ???? 中的每個像素位置被輸入到兩個映射 MLP,M????,M????,它們預測每個圖集中 ???? 的相應 2D(????,????)坐标。然後将這些坐标輸入到圖集 MLP A 中,該圖集在該位置輸出 RGB 顔色(前景圖集和背景圖集被映射到 2D 圖集空間中的兩個不同區域)。???? 在每個圖集中的可見性由 alpha MLP M???? 确定,它以 ???? 作為輸入并預測不透明度值。然後可以通過對預測的圖集點進行 alpha 混合來重建 ???? 處的 RGB 顔色。所有網絡都是端到端訓練的,主要損失是原始輸入視訊的自監督重建損失。對于可視化建議,我們在視訊中顯示給定幀的預測映射和 alpha 映射,并将圖集渲染為 RGB 圖像。

不足之處

對于單張圖檔的施加特效或許還好,但是要将同一個效果施加到一段視訊上,那工作量太可怕了。如果有算法能夠代替或者簡化這個重複性的工作,那真的是重大利好。

目前這個算法的效果已經非常的牛了!

不然從demo來看還是有一些需要優化的地方

例如輪胎這個區域生成的結果可能就存在一些不足,輪胎已經和背景的顔色。。。

AI 編輯視訊!這特效太逆天了!代碼開源 SIGGRAPH Asia 2021