天天看点

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

作者:3D视觉工坊

来源:3D视觉工坊

添加v:dddvision,备注:3D GS,拉你入群。文末附行业细分群

0. 写在前面

今天笔者为大家推荐一篇3D GS方向的最新工作pixelSplat,使用两张图片就可以重建由3D高斯图元参数化的3D辐射场,并完成新视角合成。

下面一起来阅读一下这项工作~

1. 论文信息

标题:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者:David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann

机构:麻省理工学院、西蒙·弗雷泽大学、多伦多大学

原文链接:https://arxiv.org/abs/2312.12337

代码链接:https://github.com/dcharatan/pixelsplat

官方主页:https://dcharatan.github.io/pixelsplat

2. 摘要

我们介绍了pixelSplat,这是一个前馈模型,它学习从成对图像中重建由3D高斯图元参数化的3D辐射场。我们的模型具有可扩展训练的实时和内存高效渲染以及推理时的快速3D重建功能。为了克服稀疏和局部支持表示固有的局部最小值,我们预测3D上的密集概率分布并从该概率分布中采样高斯均值。我们通过重新参数化技巧使采样操作可微分,允许我们通过高斯分布表示反向传播梯度。我们在真实世界RealEstate10k和ACID数据集上对我们的宽基线新视图合成方法进行了基准测试,在此基础上,我们优于最先进的光场转换器,并将渲染速度提高了2.5个数量级,同时重建了可解释和可编辑的3D辐射场。

3. 效果展示

给定一对输入图像,pixelSplat重建通过3D高斯图元参数化的3D辐射场。这产生了可实时渲染、保持可编辑且训练成本低廉的显式3D表示。

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

预测的3D高斯图(上图)和相应的深度图(下图)。

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

4. 主要贡献

作者主要与以下基线进行比较:

Du等人的方法(https://yilundu.github.io/wide_baseline/):为宽基线新视图合成设计的光场渲染器。

GPNR:一个光场转换器,只能处理两个输入视图。

pixelNeRF:著名的基于NeRF的方法,它难以处理场景尺度的数据集,因为它不能处理尺度模糊性。

5. 具体原理是什么?

像素对齐高斯分布的概率预测。对于输入特征图中的每个像素特征F[u],神经网络F预测高斯图元参数σ和s。高斯位置μ和不透明度α不被直接预测,这将导致局部最小值。相反,f预测深度pϕ(z)上每像素离散概率分布,由ϕ.参数化采样然后产生高斯图元的位置。每个高斯的不透明度被设定为采样深度桶的概率。然后可以使用Kerbl等人提出的splatting算法从新视图中渲染最终的高斯图元集。

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

6. 和其他SOTA方法的对比

定量比较。在真实世界RealEstate10k和ACID数据集上进行新视图合成时,pixelSplat在PSNR、LPIPS和SSIM方面优于所有基准方法。此外,pixelSplat在推断和训练过程中需要更少的内存,并且渲染图像的速度比第二快的基线快约650倍。在"Memory"一栏中,报告了单个场景和256 × 256条光线的Memory使用情况。

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

RealEstate10k(上)和ACID(下)测试集上的新视图的定性比较。与基线相比,pixelSplat不仅产生了更准确和更具吸引力的图像,而且更好地概括了非分布示例。

仅需3GB!2ms!两张图片就可以重建整个3D高斯场景!

7. 总结

这项工作介绍了pixelSplat,这是一种仅从两幅图像中重建场景的3D辐射场的基于图元的参数化的方法。在推理时,pixelSplat在产生显式3D场景表示的同时,明显快于先前在可概括的新颖视图合成方面的工作。为了解决基于图元的函数回归中出现的局部最小值问题,引入了一种通过密集概率分布对图元位置进行参数化的新方法,并引入了一种将梯度反向传播到该分布参数中的新的重新参数化技巧。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

在这里给大家介绍下3D视觉工坊最新推出的课程《基于NeRF/Gaussian的全新SLAM算法》:

  • 本门课程从理论和代码实现两方面展开,带你从零入门NeRF/Gaussian Based SLAM的原理学习、论文阅读、代码梳理等。
  • 理论层面,从线性代数入手到传统的计算机图形学,让大家明了现代三维重建的理论基础和源头;
  • 代码层面通过多个练习手把手教会大家复现计算机图形学、NeRF相关工作。

继续阅读