天天看点

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

从多个视角进行的无约束基于图像的密集三维重建是计算机视觉的少数长期研究的最终目标之一。简而言之,该任务旨在估计特定场景的三维几何和相机参数,给定该场景的一组照片。

总的来说,现代的运动和多视图立体匹配流程归结为解决一系列最小问题:匹配点、查找本质矩阵、三角化点、稀疏重建场景、估计相机,最后进行密集重建。但是每个子问题都没有完美解决,并给下一步增加了噪声,增加了整个流程需要的复杂性和工程投入。

在这篇文章中,作者提出了DUSt3R,这是一种从未校准和未定位的相机进行密集无约束立体三维重建的根本新方法。主要组成部分是一个网络,它可以仅通过一对图像回归出密集且准确的场景表示,而无需关于场景或相机的先验信息(甚至不包括内参)。由此产生的场景表示基于具有丰富属性的三维点图:它们同时封装了(a)场景几何、(b)像素与场景点之间的关系和(c)两个视点之间的关系。仅从这个输出中,几乎可以直接提取出所有场景参数(即相机和场景几何)。这是可能的,因为网络联合处理输入图像和结果的三维点图,从而学会将二维结构与三维形状相关联,并有机会同时解决多个最小问题,实现它们之间的内部"协作"。

3D视觉Daily

,赞32

下面一起来阅读一下这项工作~

标题:DUSt3R: Geometric 3D Vision Made Easy

作者:Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, Jerome Revaud

机构:阿尔托大学、Naver Labs Europe

原文链接:http://arxiv.org/abs/2312.14132

代码链接:https://github.com/naver/dust3r

官方主页:https://dust3r.europe.naverlabs.com/

在室外进行多视角立体重建(MVS)首先需要估计摄像机参数,例如内参和外参。通常这些参数获取起来很麻烦和繁琐,然而它们是必要的,用于在三维空间中三角测量对应的像素,这是所有性能最佳的MVS算法的核心。在这项工作中,我们采取了相反的立场,并引入了DUSt3R,这是一种根本新颖的范式,用于任意图像集合的密集和无约束立体三维重建,即在没有关于摄像机校准或视角姿态的先验信息的情况下运行。我们将成对重建问题构建为点图的回归,放宽了通常投影摄像机模型的严格约束。我们展示了这种表述平滑地统一了单眼和双眼重建案例。在提供了两张以上图像的情况下,我们进一步提出了一个简单而有效的全局对齐策略,将所有成对点图表达在一个公共参考框架中。我们的网络架构基于标准Transformer编码器和解码器,使我们能够利用强大的预训练模型。我们的表述直接提供了场景的三维模型以及深度信息,但有趣的是,我们可以无缝地从中恢复像素匹配、相对和绝对摄像机。对所有这些任务的详尽实验展示了所提出的DUSt3R可以统一各种三维视觉任务,并在单眼/多视深度估计以及相对姿态估计方面树立新的SoTAs。总之,DUSt3R使几何三维视觉任务变得简单。

给定一个无约束的图像集合,即一组具有未知相机姿态和内参的照片,DUSt3R输出一组相应的点图,从中可以直接恢复各种通常难以一次性估计的几何量,例如相机参数、像素对应关系、深度图和完全一致的3D重建。请注意,DUSt3R也适用于单个输入图像(例如,在这种情况下实现单眼重建)。作者还展示了在没有已知相机参数的情况下获得的模型的定性示例。对于每个样本,从左到右:输入图像,彩色点云,并使用阴影渲染以更好地查看底层几何形状。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

训练过程中从未见过的两个场景的重建实例。从左到右依次为:RGB、深度图、置信图、重建。正确的场景显示了全局对齐的结果。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

仅由两幅未见场景的图像进行三维重建的例子:KingsCollege (左上)、OldHospital (中上)、StMarysChurch (右上)、ShopFacade (左下)、GreatCourt (右下)。值得注意的是,这是网络的原始输出,即我们在彩色点云上展示了新的观点。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

从两幅图像中重建未见过的场景的例子。值得注意的是,这是网络的原始输出,即在彩色点云上展示了新的观点,从原始点图中恢复相机参数。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!
3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

(1)提出了第一个从未校准和未定位的图像进行全面端到端三维重建流程,将单目和双目三维重建统一起来。

(2)引入了用于MVS应用的点地图表示,使网络能够在规范帧中预测3D形状,同时保留像素与场景之间的隐含关系。这有效地消除了通常的透视相机公式的许多约束。

(3)在多视图三维重建的情况下引入了一种优化过程来全局对齐点地图,可以轻松提取出经典SfM和MVS流程的所有常规中间输出。从某种意义上说,这个方法统一了所有三维视觉任务,并且相比传统的重建流程大大简化,使DUSt3R看起来简单而易于使用。

(4)证明了在一系列三维视觉任务中的良好性能。特别是,全能模型在单目和多视图深度基准测试以及多视图相机姿态估计方面达到了最先进的结果。

DUSt3R是使用简单的回归损失以完全监督的方式训练的,利用大型公共数据集,其中地面真实注释要么是合成生成的,要么是从SfM软件重建的,或者是使用专用传感器捕获的。作者摒弃了集成任务特定模块的趋势,并采用了基于通用变换器架构的全数据驱动策略,在推断时不强制执行任何几何约束,但能够从强大的预训练方案中受益。网络学习了强大的几何和形状先验,这些先验与通常在MVS中利用的那些非常相似,如纹理、阴影或轮廓。

为了融合来自多个图像对的预测,作者重新审视了点地图的束调整(BA)案例,从而实现了全尺度的MVS。引入了一个全局对齐过程,与BA相反,它不涉及最小化重投影误差。相反,直接在三维空间中优化相机姿态和几何对齐,这在实践中是快速且具有良好的收敛性的。

网络结构。场景( I1、I2)的两个视图首先进行编码,并使用一个共享的ViT编码器。然后将得到的令牌表示F1和F2通过交叉注意力传递给两个不断交换信息的Transformer解码器。最后,两个回归头输出两个对应的点图和相关的置信图。重要的是,这两个点图被表示在第一幅图像I1的同一坐标框架中。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

对于两个数据集的每个场景,将与表1中的最新结果进行了比较。DUSt3R获得了与现有方法相当的精度,如特征匹配方法或基于端到端学习的方法,甚至在某些情况下超过了HLoc等强大的基线。作者认为这有两个重要的原因。首先,DUSt3R从未接受过任何形式的视觉定位训练。其次,在DUSt3R的训练过程中,既没有看到查询图像,也没有看到数据库图像。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

在零样本情况下,最新的Slow Tv代表了当前的技术状态。该方法收集了城市、自然、合成和室内场景的大量混合数据集,并训练了一个通用模型。对于混合体中的每一个数据集,相机参数是已知的或用COLMAP估计的。如表2所示,DUSt3R能够很好地适应室外和室内环境。它优于自监督基线,并且与最先进的监督基线的性能相当。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

在表3中观察到,DUSt3R在ETH - 3D上达到了最先进的精度,并且总体上优于最新的最先进的方法,甚至是那些使用真实相机姿态的方法。在时间上,DUSt3R也比传统的COLMAP流水线快得多。这表明了DUSt3R在室内、室外、小规模或大规模场景上的适用性,而除了ScanNet测试集外,在测试域上没有训练,因为训练集是Habitat数据集的一部分。

3.9k star!2张图片重建稠密3D场景!竟然还不需要相机内参!

这篇文章提出了一种新的范式,不仅可以解决没有关于场景或相机的先验信息的室外三维重建,而且可以解决所有种类的三维视觉任务。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读