天天看点

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

这篇文章介绍了一种名为MeshLRM的新型大型重建模型,该模型可以直接输出高质量的网格。作者通过使用Differentiable Marching Cubes(DiffMC)方法和可微分光栅化来微调一个预先训练的基于NeRF的LRM模型,该模型是通过体积渲染训练得到的。为了提高DiffMC的效率,作者对LRM架构进行了多项改进,包括采用小型共享MLP和简化的图像标记化方法,从而促进了NeRF和网格训练的进行。作者还发现,采用低到高分辨率的训练策略可以显著加速基于NeRF的模型的训练。与现有方法相比,作者的方法在质量和速度上均有所提高,并且是唯一能够输出高质量网格的方法。文章还展示了该方法可以直接应用于文本到3D和图像到3D生成等应用。由于网格是行业中最广泛接受的3D资产格式,作者认为这一方法是自动化3D资产创建的一大步,并可能为新型3D工作流程开辟了新的可能性。

下面一起来阅读一下这项工作~

论文题目:MeshLRM: Large Reconstruction Model for High-Quality Meshes

作者:Xinyue Wei, Kai Zhang等

作者机构:UC San Diego,Adobe Research

论文链接:https://arxiv.org/pdf/2404.10556.pdf

项目主页:https://sarahweiii.github.io/meshlrm/

我们提出了一种新颖的基于LRM的方法MeshLRM,可以在不到一秒钟的时间内仅通过四张输入图像重建出高质量的网格。与以往侧重于基于NeRF的重建的大型重建模型(LRM)不同,MeshLRM将可微分网格提取和渲染融入到LRM框架中。这允许通过微调预训练的NeRF LRM并进行网格渲染来进行端到端的网格重建。此外,我们通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是通过低分辨率和高分辨率图像顺序训练的;这种新的LRM训练策略实现了显著更快的收敛速度,从而在更少的计算资源下获得更好的质量。我们的方法实现了从稀疏视图输入中的最新网格重建,还支持许多下游应用,包括文本到3D和单图像到3D生成。

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

MeshLRM与其他前馈方法的定性比较。'In 3D-LRM'是Instant 3D中的Triplane-LRM ; 'MC'是Marching Cube。'In 3DLRM'使用体渲染,其他使用面渲染。

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

通过应用Instant3D的扩散模型从文本输入生成4视图图像来实现文本到3D的结果。我们的方法可以生成更精确和更平滑的几何图形,沿着有锐利的纹理。

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

通过应用Zero123++从单个图像输入生成6个多视图图像,实现图像到3D的结果。我们的结果优于其他重建方法。请注意,我们的模型是在4个视图上训练的,可以零次泛化到6个视图。

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
  • 一种集成可微分网格提取和渲染的新颖基于LRM的框架,用于端到端的少量网格重建。
  • 一种用于稳定DiffMC的基于射线不透明度的损失。
  • 一种高效的LRM架构和训练策略,实现快速高质量的重建。我们对MeshLRM进行了3D重建(在合成和真实数据集上)和3D生成(与其他多视图生成方法结合使用)的基准测试。图1展示了由MeshLRM重建的高质量网格输出,所有这些网格都在一秒钟内重建完成。

本文介绍了一个名为MeshLRM的模型,用于在1秒内重建高质量的网格。该模型使用了一个基于Transformer的架构,主要由一系列基于自注意力的Transformer块组成,用于处理串联的图像标记和三平面标记。与之前的LRM相比,MeshLRM简化了图像标记化和三平面NeRF解码的设计,从而实现了更快的训练和推理速度。

模型的训练分为两个阶段:首先,通过监督体积渲染来训练模型预测来自稀疏输入图像的NeRF,然后通过在预测的密度场上执行可微分Marching Cubes和最小化表面渲染损失来优化网格表面提取。

具体来说,模型使用了简化的图像标记化方法,将每个图像的摄像机参数转换为Plücker射线坐标,并与RGB像素一起串联形成一个9通道特征图。然后,模型将特征图分成不重叠的补丁,并线性变换为Transformer的输入。模型还使用了一个深度的Transformer网络,包括自注意力和MLP层,用于在所有输入视图之间进行全面的信息交换,并有效地建模了视图内、视图间和跨模态的关系。

模型的三平面标记经过解码,转换成可渲染的三平面NeRF。为了提高训练效率,模型使用了较小的MLP来解码密度和颜色,而不是使用较重的共享MLP。此外,模型还使用了一种名为DiffMC的技术来从密度场中提取网格表面,并使用可微光栅化器进行渲染,以实现高质量的网格重建。

在训练方面,模型首先使用射线行进的辐射场渲染进行预训练,然后使用高分辨率图像进行微调,以获得更好的网格重建质量。在微调阶段,模型使用了多种损失函数来监督渲染质量,并引入了一个射线不透明度损失来稳定训练并防止网格中的伪影。最终,模型的网格重建损失由几种损失组成,包括L2损失、感知损失和射线不透明度损失,以及用于优化几何精度和平滑度的法线损失。

NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

本文的实验内容主要分为两部分:数据集和评估协议,以及分析和消融研究。

数据集和评估协议

  • 本文的模型在Objaverse数据集上进行了训练,该数据集包含了730K个对象。为了第一阶段的体积渲染训练,模型接着在Objaverse-LVIS子集上进行微调,该子集包含了46K个对象。这个子集在质量上更高,而先前的研究表明,微调有利于提高质量。作者使用了GSO、NeRF-Synthetic和OpenIllumination数据集来评估MeshLRM模型的重建质量。评估指标包括PSNR、SSIM和LPIPS用于渲染质量,以及双向Chamfer距离(CD)用于网格几何质量。由于无法精确重建未见部分,作者从所有测试视图发射射线,并在每个对象上的射线-表面交点处采样100K个点来计算Chamfer距离。

分析和消融研究

  • 体积渲染(第一阶段)训练策略:为验证使用256-res预训练和512-res微调的训练策略的有效性,作者将其与仅使用高分辨率(即从头开始512-res)训练的模型进行了比较。结果表明,使用低到高分辨率训练策略的模型在相同的总计算成本下,PSNR提高了2.6dB,表现明显更好。
  • 表面微调的有效性:作者通过将最终的网格与直接从第一阶段模型中使用Marching Cubes提取的网格进行比较,验证了第二阶段表面微调的有效性。结果表明,使用DiffMC进行表面渲染的微调的模型在网格渲染质量和几何质量方面明显优于直接从第一阶段模型中提取的网格。
  • 表面微调损失:作者进行了缺失研究,结果表明,没有提出的光线不透明度损失的模型会产生严重的浮动伪影。光线不透明度损失对于稳定训练和防止浮动伪影的形成非常重要。
  • Tiny MLPs:作者使用Tiny MLPs进行三面体编码,而不是之前LRMs中的大型MLP。结果表明,Tiny MLPs可以在不降低质量的情况下带来显著的训练速度优势。

与基线方法的比较

  • 与前馈方法的比较:作者将MeshLRM与之前的Instant3D模型进行了比较,结果显示,MeshLRM在渲染质量和几何质量上均优于Instant3D。同时,MeshLRM的模型尺寸更小,计算成本更低,推断速度更快。
  • 与每场景优化方法的比较:作者还将MeshLRM与最近的每场景优化方法(如ZeroRF和FreeNeRF)进行了比较。在NeRF-Synthetic和OpenIllumination数据集上的结果显示,MeshLRM在渲染质量和几何质量上均优于这些方法,并且推断速度更快。
NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!

在本文中,我们提出了MeshLRM,一种能够直接输出高质量网格的新型大型重建模型。我们通过应用可微分Marching Cubes(DiffMC)方法和可微分光栅化来微调一个预先训练的基于NeRF的LRM,该LRM经过体积渲染训练。由于DiffMC需要骨干效率,我们对LRM架构进行了多项改进(小型共享MLP和简化的图像标记化),从而促进了NeRF和网格训练。我们还发现,低到高分辨率的训练策略可以显著加速基于NeRF的模型的训练。与现有方法相比,我们的方法在质量和速度上均有所提高,并且是唯一能够输出高质量网格的方法。此外,我们展示了我们的方法可以直接应用于文本到3D和图像到3D生成等应用。由于网格是行业中最广泛接受的3D资产格式,我们相信我们的方法迈出了自动化3D资产创建的一步,并可能为新型3D工作流程开辟了新的可能性。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。