來源:3D視覺工坊
添加v:dddvision,備注:3D GS,拉你入群。文末附行業細分群
0. 寫在前面
今天筆者為大家推薦一篇3D GS方向的最新工作pixelSplat,使用兩張圖檔就可以重建由3D高斯圖元參數化的3D輻射場,并完成新視角合成。
下面一起來閱讀一下這項工作~
1. 論文資訊
标題:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
作者:David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann
機構:麻省理工學院、西蒙·弗雷澤大學、多倫多大學
原文連結:https://arxiv.org/abs/2312.12337
代碼連結:https://github.com/dcharatan/pixelsplat
官方首頁:https://dcharatan.github.io/pixelsplat
2. 摘要
我們介紹了pixelSplat,這是一個前饋模型,它學習從成對圖像中重建由3D高斯圖元參數化的3D輻射場。我們的模型具有可擴充訓練的實時和記憶體高效渲染以及推理時的快速3D重建功能。為了克服稀疏和局部支援表示固有的局部最小值,我們預測3D上的密集機率分布并從該機率分布中采樣高斯均值。我們通過重新參數化技巧使采樣操作可微分,允許我們通過高斯分布表示反向傳播梯度。我們在真實世界RealEstate10k和ACID資料集上對我們的寬基線新視圖合成方法進行了基準測試,在此基礎上,我們優于最先進的光場轉換器,并将渲染速度提高了2.5個數量級,同時重建了可解釋和可編輯的3D輻射場。
3. 效果展示
給定一對輸入圖像,pixelSplat重建通過3D高斯圖元參數化的3D輻射場。這産生了可實時渲染、保持可編輯且訓練成本低廉的顯式3D表示。
預測的3D高斯圖(上圖)和相應的深度圖(下圖)。
4. 主要貢獻
作者主要與以下基線進行比較:
Du等人的方法(https://yilundu.github.io/wide_baseline/):為寬基線新視圖合成設計的光場渲染器。
GPNR:一個光場轉換器,隻能處理兩個輸入視圖。
pixelNeRF:著名的基于NeRF的方法,它難以處理場景尺度的資料集,因為它不能處理尺度模糊性。
5. 具體原理是什麼?
像素對齊高斯分布的機率預測。對于輸入特征圖中的每個像素特征F[u],神經網絡F預測高斯圖元參數σ和s。高斯位置μ和不透明度α不被直接預測,這将導緻局部最小值。相反,f預測深度pϕ(z)上每像素離散機率分布,由ϕ.參數化采樣然後産生高斯圖元的位置。每個高斯的不透明度被設定為采樣深度桶的機率。然後可以使用Kerbl等人提出的splatting算法從新視圖中渲染最終的高斯圖元集。
6. 和其他SOTA方法的對比
定量比較。在真實世界RealEstate10k和ACID資料集上進行新視圖合成時,pixelSplat在PSNR、LPIPS和SSIM方面優于所有基準方法。此外,pixelSplat在推斷和訓練過程中需要更少的記憶體,并且渲染圖像的速度比第二快的基線快約650倍。在"Memory"一欄中,報告了單個場景和256 × 256條光線的Memory使用情況。
RealEstate10k(上)和ACID(下)測試集上的新視圖的定性比較。與基線相比,pixelSplat不僅産生了更準确和更具吸引力的圖像,而且更好地概括了非分布示例。
7. 總結
這項工作介紹了pixelSplat,這是一種僅從兩幅圖像中重建場景的3D輻射場的基于圖元的參數化的方法。在推理時,pixelSplat在産生顯式3D場景表示的同時,明顯快于先前在可概括的新穎視圖合成方面的工作。為了解決基于圖元的函數回歸中出現的局部最小值問題,引入了一種通過密集機率分布對圖元位置進行參數化的新方法,并引入了一種将梯度反向傳播到該分布參數中的新的重新參數化技巧。
對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~
在這裡給大家介紹下3D視覺工坊最新推出的課程《基于NeRF/Gaussian的全新SLAM算法》:
- 本門課程從理論和代碼實作兩方面展開,帶你從零入門NeRF/Gaussian Based SLAM的原理學習、論文閱讀、代碼梳理等。
- 理論層面,從線性代數入手到傳統的計算機圖形學,讓大家明了現代三維重建的理論基礎和源頭;
- 代碼層面通過多個練習手把手教會大家複現計算機圖形學、NeRF相關工作。