CVPR'24開源 | 訓練加速25倍！DNGaussian：稀疏3DGS最新SOTA！

大家好，計算機視覺工坊今天給大家分享一篇CVPR2024最新開源的一項工作：DNGaussian：稀疏3DGS最新SOTA！如果您有相關工作需要分享，請聯系cv3d008！

0. 讀者個人了解

稀疏輸入的新視角合成對輻射場構成挑戰。最近在神經輻射場（NeRF）方面取得了重大進展，僅憑少數輸入視圖就能重建逼真的外觀和準确的幾何形狀。然而，大多數稀疏視圖的NeRF都采用低處理速度和大量記憶體消耗實作，導緻高時間和計算成本，限制了它們的實際應用。雖然一些方法通過基于網格的主幹實作了更快的推理速度，但它們經常面臨權衡，導緻訓練成本高或者渲染品質受損。最近，3D高斯飛濺引入了一個非結構化的3D高斯輻射場，采用一組3D高斯基元，從稠密的彩色輸入視圖中學習時，能夠在快速、高品質和低成本的新視角合成方面取得顯著成功。即使隻有稀疏輸入，它仍然可以部分保留重建一些清晰和詳細的局部特征的驚人能力。然而，視圖限制的減少使得場景幾何的顯著部分被錯誤學習，導緻新視角合成失敗。受早期深度正則化稀疏視圖NeRF成功的啟發，本文探讨了從預訓練的單眼深度估計器中提取深度資訊，以糾正不良學習幾何的高斯場，并引入深度歸一化正則化稀疏視圖3D高斯輻射場（DNGaussian）以追求更高品質和效率的少樣本新視角合成。

盡管共享相似的深度渲染形式，但3D高斯輻射場的深度正則化與NeRF所采用的方式存在顯著差異。首先，現有的NeRF深度正則化政策通常采用深度來規範整個模型，這在高斯場中會産生潛在的幾何沖突，進而對品質産生不利影響。具體來說，這種做法迫使高斯的形狀适應平滑的單眼深度，而不是複雜的顔色外觀，進而導緻細節丢失和模糊外觀。考慮到場景幾何的基礎在于高斯基元的位置而不是它們的形狀，我們當機形狀參數，并提出了一種硬和軟深度正則化，通過鼓勵基元之間的移動來實作空間重塑。在正則化過程中，我們提出渲染兩種深度以獨立調整高斯的中心和不透明度，而不改變它們的形狀，是以在複雜的顔色外觀和平滑的粗糙深度之間取得平衡。

此外，與NeRF相比，高斯輻射場對小深度誤差更敏感，這可能導緻原語的分布嘈雜，并在具有複雜紋理的區域失敗。現有的尺度不變深度損失通常選擇将深度圖與固定尺度對齊，這會忽略小的損失。為了解決這個問題，我們将全局局部深度歸一化引入深度損失函數中，進而鼓勵以尺度不變的方式學習小的局部深度變化。通過局部和全局尺度歸一化，我們的方法引導損失函數重新關注小的局部錯誤，同時保持對絕對尺度的知識，以增強深度正則化的詳細幾何重塑過程。

整合提出的兩種技術，DNGaussian在LLFF、Blender和DTU資料集上的多個稀疏視圖設定中合成出具有競争力的品質和卓越細節，相比最先進的方法，具有顯著更低的記憶體成本、25倍的訓練時間縮短和超過3000倍的渲染速度。實驗還表明，DNGaussian具有适應複雜場景、廣泛視角和多種材料的通用能力。

2. 導讀

輻射場在從稀疏輸入視圖合成新視圖方面表現出了令人印象深刻的性能，但現有方法存在高訓練成本和較慢的推理速度的問題。本文介紹了 DNGaussian，這是一個基于三維高斯輻射場的深度正則化架構，提供了實時且高品質的低成本少樣本新視圖合成。我們的動機源于最近三維高斯噴灑的高效表示和驚人的品質，盡管在輸入視圖減少時會遇到幾何退化。在高斯輻射場中，我們發現場景幾何退化主要是由高斯原語的位置确定，并可以通過深度限制來緩解。是以，我們提出了硬深度和軟深度正則化，以在粗略的單眼深度監督下恢複準确的場景幾何，同時保持細粒度的顔色外觀。為了進一步完善詳細的幾何重塑，我們引入了全局局部深度歸一化，增強對小範圍深度變化的關注。在 LLFF、DTU 和 Blender 資料集上進行了大量實驗證明，DNGaussian 方法優于最先進的方法，在顯著減少的記憶體成本、25 倍的訓練時間縮短和超過 3000 倍的更快渲染速度下實作了可比較或更好的結果。

3. 效果展示

通過稀疏輸入視圖，DNGaussian脫穎而出，提供了品質相當高的合成視圖和出色的細節，在訓練期間時間顯著減少了25倍，記憶體開銷顯著降低，同時實作了300 FPS的最快渲染速度。

CVPR'24開源 | 訓練加速25倍！DNGaussian：稀疏3DGS最新SOTA！

3D高斯分布圖展示了其從稀疏輸入視圖中重建一些精細細節（綠框）的潛力。然而，減少的輸入視圖會顯著降低幾何結構的品質并導緻重建失敗（橙色框）。在應用深度正則化後，DNGaussian成功恢複了精确的幾何形狀并合成了高品質的新視圖。

4. 主要貢獻

（1）通過鼓勵高斯的移動來限制3D高斯輻射場的幾何形狀，進而實作粗細深度正則化空間重塑而不影響細粒度的顔色性能的硬和軟深度正則化。

（2）通過在局部尺度上對深度更新檔進行歸一化，以便重新聚焦于小的局部深度變化，進而改善3D高斯輻射場的細節外觀重建的全局局部深度歸一化。

（3）一個DNGaussian架構，用于快速高品質的少樣本新視角合成，結合上述兩種技術，在多個基準測試中與最先進的方法相比具有競争力的品質，以捕捉細節具有顯著更低的訓練成本和實時渲染。

（4）DNGaussian是第一個嘗試分析和解決3D高斯飛濺在粗深度線索下的深度正則化問題的嘗試。我們希望本文能激發更多關于在不受限制的情況下優化輻射場的思路。

5. 基本原理是啥？

DNGaussian的架構，從一個随機初始化開始，包括一個顔色監督子產品和一個深度正則化子產品。顔色監督的優化過程主要繼承自3D高斯噴灑，除了一個神經顔色渲染器。在深度正則化中，我們為輸入視圖渲染了一個硬深度和一個軟深度，并分别使用提出的全局-局部深度歸一化計算了預生成的單眼深度圖的損失。最後，輸出的高斯場實作了高效和高品質的新視圖合成。

6. 實驗結果

LLFF。對LLFF資料集的定性結果和可視化結果如表1和圖5所示。值得注意的是，由于NeRF基線會将顔色插值到從輸入視圖不可見的區域，而離散高斯輻射場直接暴露這些空白區域的黑色背景，基于3DGS的方法天生在從這些無意義的不可見區域重建名額方面存在弱點。盡管如此，DNGaussian在LPIPS得分上仍然優于所有基線，并且在PSNR、SSIM和平均誤差方面達到了可比較的水準。從定量和定性結果來看，可以看出DNGaussian預測了更多的細節和精确的幾何形狀。FreeNeRF傾向于合成缺乏高頻細節的平滑視圖，而且幾何形狀不如深度監督的SparseNeRF和DNGaussian準确。盡管受到相同深度圖的規範化，SparseNeRF在細節和幾何完整性方面表現更弱。與調整良好的3DGS相比，DNGaussian在圖像幾何品質方面也有巨大的改進。

DTU。表1中報告的DTU 3視圖設定的定量結果顯示，DNGaussian在LPIPS和SSIM方面表現最佳，平均誤差方面排名第二。

效率。在LLFF 3視圖設定中使用RTX 3090 Ti GPU進行效率研究，以探索目前SOTA基線在有限的GPU記憶體（24GB/12GB）和訓練時間（1.0h/0.5h）的情況下的性能，如表3所示。每組的頂行表示相應基線的預設設定，其中訓練時間在單個GPU上進行相同疊代次數的測量得到。盡管在嚴格的資源限制下，FreeNeRF和SparseNeRF的表現較差，但DNGaussian在效率方面顯示出巨大優勢，可以在訓練時間上實作顯著加速，達到25倍，并在FPS上超過3000倍，同時合成具有競争力品質的新視圖。考慮到每場景優化和快速可視化的必要性，我們的高效性對于實際應用具有重要價值。

7. 總結

這篇文章提出了DNGaussian架構，通過深度規範化将3DGS引入到少樣本新視圖合成任務中。

8. 參考

[1] DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。