高真實感、全局一緻、外觀精細，面向模糊目标的NeRF方案出爐

選自arXiv

作者：Haimin Luo等

機器之心編譯

編輯：陳萍

自 NeRF 被提出後，有多項研究對其加以改進。在本篇論文中，上海科技大學的研究者提出了首個将顯式不透明監督和卷積機制結合到神經輻射場架構中以實作高品質外觀的方案。

模糊複雜目标的高真實感模組化和渲染對于許多沉浸式 VR/AR 應用至關重要，其中物體的亮度與顔色和視圖強相關。在本文中，來自上海科技大學的研究者提出了一種使用卷積神經渲染器為模糊目标生成不透明輻射場的新方案，這是首個将顯式不透明監督和卷積機制結合到神經輻射場架構中以實作高品質外觀的方案，并以任意新視角生成全局一緻的 alpha 蒙版。

具體而言，該研究提出了一種有效的采樣政策以及錄影機光線和圖像平面，進而能夠進行有效的輻射場采樣，并以 patch-wise 的方式學習。同時，該研究還提出了一種新型的體積特征內建方案，該方案會生成 per-patch 混合特征嵌入，以重建視圖一緻的精細外觀和不透明輸出。

此外，該研究進一步采用 patch-wise 對抗訓練方案，以在自監督架構中同時保留高頻外觀和不透明細節。該研究還提出了一種高效的多視圖圖像捕獲系統，以捕獲挑戰性模糊目标的高品質色彩和 alpha 圖。在現有資料集和新的含有挑戰性模糊目标的資料集上進行的大量實驗表明，該研究提出的新方法可以對多種模糊目标實作高真實感、全局一緻、外觀精細的不透明自由視角渲染。

論文位址：https://arxiv.org/abs/2104.01772

該研究的主要貢獻包括：

提出了一種新型卷積神經輻射場生成方案，用于重建高頻和新視圖中模糊目标的全局一緻的外觀和不透明度，并顯著超越了此前的 SOTA 性能；
為了啟用卷積機制，該研究提出了高效的采樣政策，混合特征融合以及用于 patch-wise 輻射場學習的自監督對抗訓練方案；
提出了一種高效的多視圖系統，以捕獲顔色和 alpha 圖，以應對具有挑戰性的模糊目标，該研究的捕獲資料集可用于激發進一步的研究。

方法架構

研究者在論文中詳細介紹了新提出的卷積神經不透明輻射場（convolutional neural opacity radiance field, ConvNeRF）。該模型基于捕獲系統的 RGBA 輸入，能夠在新視圖中實作高真實感、全局一緻的外觀和不透明渲染，如下圖所示：

端到端 ConvNeRF pipeline 概覽。

給定多視圖 RGBA 圖像，研究者使用 SFS（Shape-From-Silhouette）來為高效射線采樣推斷代理幾何。對于體積空間中的每個樣本點，位置和方向都會饋入到一個基于多層感覺機（MLP）的特征預測網絡，以在全局水準上表征對象。然後，研究者将附近的射線合并為局部特征 patch，并使用卷積體渲染器将其解碼為 RGB 和蒙版。他們在最終輸出上使用對抗訓練政策，以促成精細的表面細節。在 reference 階段，該方法一次渲染整個圖像，而不是渲染每個 patch。

該方法的主要思想是使用空間卷積機制對不透明資訊進行顯式編碼，以改進神經輻射場方法（NeRF），對高頻細節進行模組化。受 NeRF 啟發，研究者采用了類似的隐式神經輻射場來表征使用多層感覺器的場景，以及沿投射射線方向預測密度和顔色值的體融合（volumetric integration）。

不同的是，ConvNeRF 通過空間卷積設計進一步顯式編碼不透明度，以顯著改進神經輻射場重建。為此，研究者首先提出一種高效的采樣政策，不僅利用沿錄影機光線的先驗固有輪廓，還要編碼整個圖像平面上的空間資訊。接着采用一種全局幾何表征法将 3D 位置映射成進階輻射特征，并通過一種新型體融合方案生成 per-patch 混合特征嵌入，這樣一來分别對外觀和不透明度的特征進行模組化，進而以 patch-wise 的方式進行更高效的輻射場學習。

最後，研究者使用一個輕量級的 U-Net 來将特征 patch 解碼為視圖一緻的外觀和不透明度輸出，并進一步采用了一種 patch-wise 對抗訓練方案，以在自監督架構中保留高頻外觀和不透明度細節。

捕獲系統

該研究用到的捕獲系統（capture system）能夠生成高品質的多視圖 RGBA 圖像，用于對具有挑戰性的模糊目标進行顯式不透明度模組化。

如下捕獲系統概覽圖所示，該方法的 pipeline 配備了易于使用的捕獲裝置以及穩定的校驗和自動摳圖方法，

實驗結果

該研究在多種毛茸茸物體上評估了 ConvNeRF。定量和定性評估實驗的結果表明：與之前的工作相比，該方法可以更好地保留高保真外觀細節，并在任意新視圖中生成全局一緻的 alpha 蒙版。該研究進一步進行了消融實驗，以驗證該方法的設計選擇。

如下圖 6 所示，在 Cat、Girl、Wolf 資料集上，研究者對該方法與 IBOH、NOPC、和 NeRF 的自由視點 RGB 進行了對比。結果發現，該方法能夠在保留幾何全局視圖一緻性的同時重建幾何和外觀上的精細細節，例如貓的毛皮紋理、女孩靴子上的圖案以及狼毛的幾何細節。IBOH 表現出重影和混疊，NOPC 存在過度模糊和幾何細節的損失，而 NeRF 則表現出過多的噪聲和模糊。

下圖 7 展示了在 Cat、Hairstyle 2 資料集上，該方法與 IBOH、NOPC 和 NeRF 的自由視點 Alpha 效果比較。結果發現，該方法可以從視線不一緻的 alpha 蒙版中恢複缺失的部分不透明度，例如貓的胡須，如第一行所示，而 IBOH 則會失敗，并出現嚴重的僞影。該方法可以産生比 NOPC 更銳利（sharp）的 alpha 蒙版，後者會在頭發周圍産生嚴重的僞影。而 NeRF 在富有挑戰性的 Hairstyle 2 資料集上失敗了。

在定量評估方面，研究者使用 PSNR、LPIPS 和 SSIM 作為名額定量評估了幾種方法。如下表 1 和表 2 所示，ConvNeRF 在 RGB 和 alpha 結果上都實作了顯著的性能提升。

下表 3 展示了在半透明（即 0 < α < 1）區域上，所有資料集的平均 PSNR，該方法實作了 SOTA 性能。