天天看點

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

(映維網Nweon 2022年03月09日)新視點合成(Novel-View Synthesis;NVS)的目标是從新視點逼真地渲染圖像,并且長期以來都是計算機圖形學和計算機視覺領域的一個重要挑戰。

給定從不同視點拍攝的大量圖像,系統可以推斷場景的幾何結構和外觀,并以新camera姿勢合成圖像。與NVS相關的一個問題是,它需要一組來自不同視角的不同圖像以準确地表示場景。這可能涉及在靜态環境中移動單個攝像頭,或使用大型多攝像頭系統從不同角度捕獲動态事件。

單目視訊序列中的動态NV技術展示了令人信服的結果,但由于具有不适定性,它們出現了各種視覺僞影。這需要在動态場景的深度和運動方面引入先驗知識。同時,移動裝置現在搭載了帶有顔色和深度傳感器的攝像系統,例如微軟的HoloLens,以及iPhone和iPad Pro中的前後RGBD攝像系統。

深度傳感器可以使用立體光或結構光,或者越來越精确的飛行時間測量原理。盡管深度傳感技術比以往任何時候都更加普遍,但一系列的NVS技術目前都沒有利用這種額外的視覺資訊源。為了提高NVS性能,卡内基梅隆大學、布朗大學、康納爾大學、巴斯大學和Meta的研究人員提出了TöRF。

這是一種利用顔色和飛行時間圖像的場景外觀隐式神經表示。與僅使用彩色攝像頭相比,它可以減少靜态NVS問題設定所需的圖像數量。另外,附加的深度資訊令單目動态NVS問題更容易處理,因為它直接編碼有關場景幾何體的資訊。最重要的是,團隊沒有直接使用深度,而是使用通常用于推導深度的相量圖像形式的“原生”ToF資料。這種方式更為準确,因為它允許優化以正确處理超出傳感器明确範圍的幾何體、反射率低的對象,以及受多徑幹擾影響的區域,進而實作更好的動态場景視圖合成。

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

1. 用于ToF圖像的Neural Volumes Rendering

Neural Volumes是一種用于學習、渲染和驅動動态對象的方法(動态對象使用外向内攝影頭裝備捕獲)。由于統一的體素網格是用來模拟場景,這一方法适用于對象,而不是場景。由于場景的大部分都是由空的空間組成,是以Neural Volumes使用一個扭曲場來最大化可用分辨率的效用。然而,這種方法的有效性受到扭曲分辨率和網絡以無監督方式學習複雜逆扭曲的能力的限制。

Neural Radiance Fields(NeRF)則使用緊湊表示法解決分辨率問題。另外,NeRF隻處理靜态場景。另一個挑戰是運作時,因為多層感覺器(MLP)必須沿着camera光線在每個采樣點進行評估。要合成單個高分辨率圖像,這将導緻數十億次MLP評估,導緻渲染時間非常慢,大約每幀30秒。

簡單來說,三角形網格很難對頭發等薄結構進行模組化。在合理的記憶體預算下,Neural Volumes等體三維表示的分辨率太低,而Neural Radiance Fields等高分辨率隐式表示的實時應用速度太慢。

假設一個靜态場景,神經網絡Fθ:(xt,ωo)→ (σ(xt),Ls(xt,ωo))。其中,位置xt,方向ωo,點xt處的密度σ(xt),沿ωo方向穿過xt的光線的輻射度Ls(xt,ωo)。體積密度函數σ(xt)控制每個點的不透明度σ(xt)。大值表示不透明區域,小值表示透明區域,這允許表示三維結構。

輻射函數Ls(xt,ωo)表示在ωo方向的點xt處散射的光,并表征不同材料的視覺外觀。這兩個函數一起可用于渲染任何給定camera姿勢的場景圖像。研究人員的關鍵洞察是,NeRFs可以擴充到模組化(并從中學習)ToF攝像頭的原始圖像。

NeRF優化需要Neural Volumes Rendering:給定camera的姿勢,通過追蹤光線穿過體積并計算沿每條光線觀察到的輻射來生成圖像:

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

泛化ToF攝像頭的Neural Volumes Rendering程式需要兩個變量。首先,由于TOF攝像頭使用有源光源來照明場景,是以必須考慮場景的照明條件随着camera的位置而改變的事實。團隊推導了場景的外觀,以響應将點光源與camera并置的情況。然後,團隊将Volumes Rendering積分擴充到ToF攝像頭捕獲的模型圖像。與瞬态渲染架構和神經瞬态場中采用的方法類似,研究人員在積分中加入了路徑長度重要性函數,可以對不同類型的ToF攝像頭模組化。

為了簡單起見,我們假設函數L(x,ωo)是單色,即它在單個波長上輸出輻射。稍後,為紅光、綠光、藍光和紅外光(IR)的輸出值模組化。LRGB值對應于從環境照明散射到彩色攝像頭的輻射,而LToF對應于具有主動照明的ToF攝像頭進行的測量。

2. 并置點光源

理想的ToF攝像頭隻對來自并置紅外點光源的光作出響應,而不對任何環境照明作出響應。在這個假設下,團隊将輻射率Ls(xt,ωo)模組化為光源位置的函數:

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成
請注意,散射相位函數還取決于局部表面着色法線n(xt)。對于x處的點光源(即與相機并置),每個場景點僅從一個方向照亮。是以,入射輻射度是:
融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成
當代入方程1和方程3時,得到的正演模型為:
融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

這個表達式類似于方程1,但有兩個關鍵差別:平方透射項和由點光源引起的平方反比衰減。與NeRF類似,可以再次使用求積對上述積分進行數值近似,并通過訓練隻依賴于位置和方向的神經網絡來恢複體積參數(σ(xt),Is(xt,ωo))。

3. 連續波飛行時間模型

ToF攝像頭利用光的傳播時間來計算距離。并置的點光源将人造光信号發送到環境中,ToF傳感器測量光響應反射所需的時間。假設光速不變,c≈ 3·108 m/s,這個時間資訊決定了行進的距離。

ToF攝像頭的真實感模拟包括在渲染方程中引入路徑長度重要性函數,可以很容易地應用于等式5中的積分:

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

其中函數W(d)權重長度為d的光路的貢獻。請注意,光的傳播距離是camera原點x和場景點xt之間距離的兩倍。函數W(d)可用于表示多種ToF攝像頭,包括脈沖ToF傳感器和連續波ToF(C-ToF)傳感器。這裡,由于團隊提出的系統使用C-ToF傳感器進行成像,是以使用相量W(d)=exp i 2πdf C對圖像進行模組化。注意,因為函數W(d)為複數,是以輻射LToF(x,ωo)會産生複數的相量圖像。實際上,相量圖像是通過捕獲四個線性組合的實值圖像來建立。

與ToF推導的深度形成對比。ToF攝像頭通常通過假設每一條光線隻有一個點x反射光來恢複深度:

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

在現實場景中,一條射線的多個點都可能對信号産生影響,進而産生稱為多徑幹擾的相量輻射值的線性組合。這可能會降低C-ToF攝像頭深度測量的品質。

例如,在深度邊緣周圍,一個像素将來自距離攝像頭兩個不同距離的表面的信号進行積分,進而産生“飛行像素”僞影,即與兩個距離都不對應的3D點。在對半透明或鏡面反射對象成像時會出現類似的僞影,其中兩個或多個曲面為一個像素貢獻光。是以,通過方程6使用相量圖像優化NeRFs比通過方程7使用導出的深度映射具有明顯的優勢。

4. 優化動态ToF+NeRF=TöRF

  • Dynamic Neural Radiance Fields:使用相量圖像的一個關鍵優勢是,可以從單個視圖中捕獲場景幾何體,進而能夠從可能移動的彩色攝像頭和C-ToF攝像頭對中實作動态場景的高保真度新視點合成。為了支援Dynamic Neural Radiance Fields,團隊使用兩個神經網絡對測量值進行模組化。
  • 損失函數:給定一組在不同時間點捕獲的場景彩色圖像和相量圖像,研究人員從所有像素集中采樣一組camera光線,并最小化渲染圖像和測量像素值之間的總平方誤差。
  • camera姿勢優化:在過去的研究中中,COLMAP用于恢複NVS的camera姿勢。然而,即使掩蓋了動态區域,COLMAP都無法恢複一系列真實場景的精确camera姿勢。另外,COLMAP僅恢複未知比例的camera姿态,而ToF圖像形成模型假設場景比例已知。是以對于真實場景,團隊在訓練循環中從零開始優化camera姿勢。
  • 射線取樣:許多實體攝像頭系統沒有并置的彩色和ToF攝像頭。是以為了訓練模型,研究人員通過體三維追蹤單獨的光線,以進行顔色和ToF測量。他們在每次疊代中交替使用顔色損失和ToF損失。另外,與NeRF一樣,在沿射線采樣點時使用分層随機抽樣。

5. 實驗

在實驗中,團隊提出的模型需要12-24小時收斂,每幀需要3-5秒生成一個新視點(256×256)。

對于靜态場景,除了RGB,其內建了原始ToF測量,進而允許TöRF能夠從較少的輸入視圖重建靜态場景,并在相同數量的輸入視圖中實作比标準NeRF更高的視覺保真度。

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

表2對浴室和卧室這兩個合成序列進行了定量比較,它可以僅從2個和4個輸入視圖進行重建。為了能夠在10個保持視圖進行比較,團隊對兩種方法都使用ground truth camera姿勢。隻有兩個輸入視圖,TöRF添加的相量監控比NeRF更好地再現場景。對于四個視圖,NeRF和TöRF産生了可比的RGB結果,但後者的深度重建要精确得多(圖5)。

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

對于動态場景。團隊将表3中的合成動态序列Dinopar的重建品質與30個ground truth hold-out視圖和深度映射進行了比較。與使用深度估計(NSFF和VideoNeRF)的方法相比,TöRF可以産生更好的深度和RGB視圖。

盡管TöRF PSNR略低于NSFF,但TöRF的感覺LPIPS名額顯著低于NSFF。與使用ToF衍生深度(NSFF+ToF、VideoNeRF+ToF)的相同方法相比,TöRF都能産生更好的深度和RGB重建。對于真實場景,圖6顯示了結果和比較。

融合ToF+NeRF,Meta提出TöRF,實作更優動态場景視圖合成

可以看到,VideoNeRF+ToF在深度邊界附近顯示出更強的不一緻僞影和扭曲邊緣,并且無法從深度映射中恢複。NSFF存在嚴重的重影和拉伸僞影,對結果品質産生負面影響。團隊的結果顯示了最高的視覺品質和最精确的深度映射。

6. 局限性與未來研究

團隊将ToF傳感器引入RGB神經輻射場,通過融合兩種傳感模式的優點來提高品質。但是,ToF傳感同樣帶來了一定的限制。C-ToF傳感在更大範圍的場景中很困難;另外,對于每次測量,C-ToF傳感器需要在不同時間快速捕獲四個或更多圖像,這可能會導緻快速移動對象産生僞影。

即使使用ToF資料,以掠射角度成像的對象或既暗(低反射率)又動态的對象依然難以重建,例如深色頭發。同時,神經網絡對動态場景模組化的能力有限,這限制了動态序列的持續時間。這是目前一系列神經動态場景方法的局限性。

整合ToF資料可以提高準确性,但僅限于可檢測到主動照明的場景。實際上,與傳統的基于圖像的渲染相比,目前的神經方法在優化和渲染方面的計算成本更高。例如,團隊的模型需要GPU優化數小時(12-24小時)。

相關論文:TöRF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis

總的來說,論文的貢獻包括:

  • 用于原生連續波ToF圖像的基物神經體繪制模型
  • 一種利用彩色和連續波ToF傳感器資訊優化動态場景神經輻射場的方法
  • 對合成場景和真實場景的定量和定性評估顯示,在少數輸入視圖和兩條動态場景基線情況下,視圖合成優于NeRF。