天天看點

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

選自arXiv

作者:SIMON NIKLAUS等

機器之心編譯

參與:魔王

Ken Burns 特效是通過平移和縮放使靜止圖檔動态化的一種特效,之前的方法需要多張輸入圖像,而且考驗使用者的圖像處理技術。現在不用了,來自美國波特蘭州立大學和 Adobe 的研究人員提出了一種新架構,它能基于單張圖像合成 3D Ken Burns 特效,并支援全自動模式和使用者控制錄影機的互動模式。

論文位址:https://arxiv.org/abs/1909.05483

Ken Burns 特效,是一種通過虛拟錄影機掃描和縮放使靜止圖檔動态化的特效。添加視差是建立 3D Ken Burns 的重要因素,帶來了很多不可思議的畫面。手動建立此類特效很費時間,并且需要足夠的圖檔編輯技巧。

但是,現有的自動方法需要多張不同視角的輸入圖像。最近,來自美國波特蘭州立大學和 Adobe 的研究人員提出了一種新架構,它能基于單張圖像合成 3D Ken Burns 特效,并支援全自動模式和使用者控制錄影機的互動模式。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 1:單張圖像生成的 3D Ken Burns 特效。基于單張輸入圖像和使用者自選标注(以裁剪視窗形式),該架構使靜止輸入圖像動态化,并通過添加視差來合成 3D Ken Burns 特效。

示例如下:

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效
2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效
2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效
2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

該架構首先利用景深預測流程,估計适合視圖合成任務的景深。為了解決現有景深估計方法的局限性,如幾何失真、語義失真和不準确的景深邊界,研究者開發了一種語義感覺神經網絡用于景深預測,輔以基于分割的景深調整流程,并使用精煉神經網絡提升目标邊界的景深預測準确率。

該架構根據景深估計,将輸入圖像映射至點雲,并從對應的錄影機位置渲染點雲,進而合成最終的視訊幀。為了解決空洞問題(disocclusion)同時保證合成結果具備時間和幾何連貫性,研究者利用上下文感覺的顔色修複和景深修複技術,填充錄影機路徑極端視圖中的丢失資訊,進而擴充點雲的場景幾何(scene geometry)。研究者對大量圖像内容進行實驗後發現,該方法可以實作逼真的合成結果。該研究表明,相比已有的 3D Ken Burns 特效生成方法,這一系統不費吹灰之力即可實作更好的合成結果,。

研究貢獻

這篇論文主要介紹如何基于單張圖像,自動合成 3D Ken Burns 特效。研究者納入了簡單的使用者指定錄影機路徑(可選),以期望開始視圖和結束視圖進行參數化,保證使用者對合成特效的控制。

基于單張圖像合成逼真的移動鏡頭效果是一個非常難的問題,它需要解決兩個基礎難題:1)要想基于新錄影機位置合成新視圖,就需要準确複原原始視圖的場景幾何;2)從預測場景幾何中合成具備時間連貫性的新視圖序列需要處理空洞難題。該研究解決了這兩大難題,并提供了一個基于單張圖像合成 3D Ken Burns 特效的完整系統。

首先,該系統基于輸入圖像估計景深圖。近年來現有的景深預測方法迅速發展,但單目景深估計仍然是難解問題。研究者觀察到,已有的景深預測方法并不是特别适合視圖合成任務。具體而言,研究者發現要想使用這些方法進行 3D Ken Burns 特效合成需要解決三個關鍵問題:幾何失真、語義失真和不準确的景深邊界。

基于此,研究者設計了一個景深估計流程以及專門解決這些問題的訓練架構。他們開發了語義感覺景深估計神經網絡,并在其最新建立的大規模合成資料集上進行模型訓練,該資料集包含不同照片級真實感場景的真值景深。

這樣,景深預測流程和新型視圖合成方法結合起來形成一個完成的系統,可實作基于單張圖像的 3D Ken Burns 特效生成。該系統提供全自動的解決方案,自動确定虛拟錄影機的開始視圖和結束視圖,進而最小化遮蔽物的數量。

3D Ken Burns 特效合成

該架構包含兩個主要元件:景深估計流程(見圖 3)和新型視圖合成流程(見圖 7)。

語義感覺景深估計

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 3:該研究提出的景深估計流程圖示。給出一張高分辨率圖像,研究者首先基于低分辨率輸入圖像估計粗糙景深。

要想合成 3D Ken Burns 特效,該方法首先需要估計輸入圖像的景深。研究者将景深估計分為 3 個步驟:

  1. 利用低分辨率圖像估計粗糙景深,同時依靠 VGG-19 提取的語義資訊提升泛化性。
  2. 根據 Mask R-CNN 的執行個體級分割結果調整景深圖,確定顯著目标内的景深值連貫。
  3. 精煉輸入圖像指引的景深邊界,同時對低分辨率景深估計進行上采樣。
2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 4:景深估計中間結果。該示例展示了景深估計流程中每一步的貢獻。

最初估計的景深遭受語義失真(紅色汽車)和不準确的精神邊界(如塔輪廓上的凸起)。景深調整可解決紅色汽車的語義失真問題,景深精煉可解決目标邊界的細微細節問題。

上下文感覺的視圖合成修複技術

為基于景深估計合成 3D Ken Burns 特效,該研究提出的方法首先将輸入圖像映射至點雲中的點。然後沿着預先确定的錄影機路徑從對應錄影機位置開始渲染點雲,進而合成所得視訊中的每一幀。但是,點雲隻是從輸入圖像看到的世界幾何部分視圖,是以得到的新視圖渲染結果并不完整,存在遮蔽物引起的空洞。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 7:新型視圖合成方法圖示。基于輸入圖像點雲和景深圖,從新的錄影機位置渲染後續新視圖。

該研究設計了一個專門的視圖合成流程來解決圖 7 中的要求。給出輸入圖像的點雲及其景深估計,研究者利用顔色修複和景深修複技術填充不完整新視圖渲染結果的丢失區域。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 5:點雲渲染圖示。用初始景深估計的點雲展現深度精煉的重要性,因為目标可能會在目标邊界處被分割開。

涉及景深的圖像修複技術可實作幾何連貫的圖像修複。然後使用修複景深将修複顔色映射至現有點雲中的新點,進而解決遮蔽物的問題。

要想按預先确定的錄影機路徑合成 3D Ken Burns 特效,僅在起始和結尾等極端視圖中執行顔色和景深修複即可。渲染擴充後的點雲可保持時間連貫性,而且能夠實時完成。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 6:視訊合成結果示例,對比了兩種流行的即拿即用圖像修複方法和該研究提出的方法。由于待修複區域本質上并非矩形,是以 DeepFill 無法修複出合理的結果。EdgeConnect 的修複結果更加合理,但不具備時間連貫性且無法保持目标邊界。而該研究提出的修複方法既具備時間連貫性,又能保持清晰的目标邊界。

實驗

研究者對比了現有解決方案和新架構在合成 3D Ken Burns 特效方面的效果。他們考慮了兩種商業系統:第一種是 Photo Motion 軟體包,是 Adobe After Effects 的模闆;第二種是移動 app Viewmee,它可使非專業使用者輕松建立 3D Ken Burns 特效。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 10:易用性研究結果。新系統可使使用者不費吹灰之力得到優秀結果。

圖 11 展示了兩個示例,對比了新方法生成的 3D Ken Burns 特效和使用同樣開始視圖、結束視圖裁剪視窗得到的 2D 版本。2D 版本具備典型的縮放特效,但沒有視差。而新方法包含逼真的移動視差和強大的景深預測,是以特效結果更好。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

圖 11:2D Ken Burns 和 3D Ken Burns 特效對比圖。注意移動視差方面的差異。

表 1(上)根據每個基準定義的不同量化名額對比不同方法的景深預測品質。該研究提出的方法在所有景深品質名額上均可媲美目前最優的景深預測方法。

表 1(下)列舉了新方法的兩種變體,友善更好地分析景深估計網絡和訓練資料集的效果。具體而言,研究者使用 DIW 資料集的所有可用訓練資料訓練網絡架構,與基于研究者建立的資料集訓練的網絡進行對比。

2D照片秒變3D,Adobe新方法讓你隻用一張圖像輕松做特效

表 1:景深預測品質。新方法在所有景深品質名額上均可媲美目前最優的深度預測方法。

本文為機器之心編譯,轉載請聯系本公衆号獲得授權。