天天看点

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

论文题目:GSNeRF: Generalizable Semantic Neural Radiance F

作者:Zi-Ting Chou,Sheng-Yu Huang等

作者机构:Graduate Institute of Communication Engineering, National Taiwan University,NVIDIA, Taiwan

论文链接:https://arxiv.org/pdf/2403.03608.pdf

介绍了一种名为GSNeRF的通用语义神经辐射场,该模型在合成过程中考虑了图像语义,能够为未见场景生成新视角图像和相关的语义地图。GSNeRF由两个阶段组成:语义地理推理和深度引导视觉渲染。前者从多视角图像输入中提取语义和几何特征,后者在图像几何信息的指导下执行图像和语义渲染,性能得到改善。实验证实了GSNeRF在新视角图像和语义分割合成方面的优越性,并验证了采样策略对于视觉渲染的有效性。

读者理解:

本文提出的GSNeRF方法在解决通用的新视角合成和语义分割问题上具有创新性和实用性。通过将视觉特征提取和深度图预测结合起来,GSNeRF能够在不需要重新训练的情况下泛化到未见过的场景,这在实际应用中具有重要意义。实验结果表明,GSNeRF在真实世界和合成数据集上取得了良好的表现,优于现有方法。这表明GSNeRF是一种有效的方法,可以应用于各种需要新视角合成和语义分割的场景。

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

这篇论文介绍了一种名为GSNeRF的通用语义神经辐射场,旨在同时解决通用化新视角合成和语义分割的问题。GSNeRF通过学习场景的视觉特征、深度信息和语义信息,能够在未见场景上渲染新的视角图像,并生成相应的语义分割掩码。该方法包括两个关键学习阶段:语义地理推理和深度引导视觉渲染。前者用于推导场景的视觉特征和聚合源视图的深度信息,以估算新视图的深度,而后者用于渲染目标视图的RGB图像和语义分割图。通过在真实世界和合成数据集上进行实验,证明了GSNeRF在新视角合成和语义分割方面优于当前通用性NeRF方法的性能。

本文贡献:

  • 提出了GSNeRF,用于在未见场景上共同渲染新视角图像并生成相关的语义分割掩码。
  • 所提出的语义地理推理阶段学习输入场景的颜色、几何和语义信息,引入了本文文GSNeRF的泛化能力。
  • 基于推断出的几何信息,引入的深度引导视觉渲染阶段根据预测的目标视图深度图定制了两种不同的采样策略,以便可以同时进行图像和语义地图的渲染。

简要回顾了通用性NeRF的基本原理和方法。通用性NeRF通过学习场景的视觉特征、深度信息和语义信息,可以在未知场景上渲染新的视角图像,并生成相应的语义分割掩码。该方法包括两个关键学习阶段:语义地理推理和深度引导视觉渲染。语义地理推理阶段学习输入场景的颜色、几何和语义信息,引入了GSNeRF的泛化能力。深度引导视觉渲染阶段根据推断出的几何信息定制两种不同的采样策略,以便可以同时进行图像和语义地图的渲染。通用性NeRF的优化目标是通过渲染损失优化模型,使渲染图像与真实图像之间的差异最小化。

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?
开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

3.1 问题阐述与模型概述

这一部分介绍了论文的方法。首先定义了问题设置和符号表示,描述了在给定场景和相机姿态的情况下,旨在实现新视角合成和语义分割的目标。提出了通用语义神经辐射场(GSNeRF)来实现这一目标,包括两个关键学习阶段:语义地理推理和深度引导视觉渲染。在语义地理推理阶段,利用语义地理推理器从每个输入源图像中提取2D特征、语义特征、3D体积特征和深度预测。在深度引导视觉渲染阶段,根据目标视图的深度图进行独特的采样策略,然后将采样点和特征输入到体积渲染器和语义渲染器,以合成目标视图的图像和语义分割图。

3.2 通用语义NeRF

通用语义NeRF的两个关键学习阶段:语义地理推理和深度引导视觉渲染。在语义地理推理阶段,通过Gθ模型从K个多视角源图像中提取几何线索和语义信息,包括3D体积特征、深度图、2D图像特征和语义特征,并学习预测目标视图的深度图。在深度引导视觉渲染阶段,通过修改传统的体积渲染策略,采用深度引导采样策略,使得采样点集中在预测的深度值附近,从而提高采样效率。最终,利用预测的深度图进行体积渲染和语义渲染,分别使用体积渲染器Rθ和语义渲染器Pθ预测目标视图的图像和语义分割结果。整个过程使得模型能够在训练后直接推广到未见过的场景,无需微调,实现了对未知场景的通用性。

3.3 训练和推断

在本节中,介绍了GSNeRF的训练和推断过程。在训练阶段,使用了多种损失函数来优化模型,包括图像渲染损失、深度预测损失和语义分割损失。如果地面真实深度可用,使用地面真实深度来监督深度预测;如果不可用,则使用自监督深度损失来优化深度估计。在推断阶段,本文的模型能够在未见过的场景中生成新的视图图像和语义分割图,无需重新训练。这是因为本文的模型能够根据输入场景的特征实时构建语义神经辐射场,从而实现对新场景的泛化推断。

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

在实验部分,作者使用了真实世界和合成数据集来评估他们提出的方法的有效性。对于真实世界数据,他们使用了ScanNet数据集,这是一个大规模的室内RGB-D视频数据集,包含超过250万个视图和1513个不同场景,具有语义注释和相机姿势。他们在60个场景上训练模型,并在10个新的未见过的场景上测试泛化能力。对于合成数据,他们使用了Replica数据集,这是一个基于3D重建的室内数据集,包含18个高质量的场景,具有密集的几何、HDR纹理和语义标签。他们在6个不同场景上的12个视频序列上训练模型,并在4个视频序列上的2个新场景上进行测试。

在结果和分析部分,作者首先对比了他们的方法与几种基线方法,包括S-Ray、MVSNeRF、GeoNeRF、GNT和NeuRay,使用PSNR、SSIM等指标进行评估。实验结果表明,他们的方法在未见过的场景中表现良好,并且即使在没有地面真实深度的情况下,仍然优于其他基线方法,验证了其有效性和实用性。此外,作者进行了定性结果的比较,展示了他们的方法相对于SRay的优势,能够更好地捕捉几何细节和场景的真实性。

作者还进行了消融研究,分析了设计模块的有效性。通过在ScanNet数据集上的实验,他们验证了模型的各个部分对结果的贡献,并展示了深度引导采样策略的有效性。最后,作者讨论了他们的方法在采样效率方面的优势,指出深度引导采样使得模型对于每条射线的采样点数目变化不敏感,并且在降低采样点数目的情况下依然能够保持良好的视觉效果。

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?
开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?
开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?
开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

本文提出了一种通用的语义神经辐射场(GSNeRF)方法,用于实现通用的新视角合成和语义分割。本文的GSNeRF被训练以提取每个源视图的视觉特征并执行深度图预测,以便可以估计新目标视图的深度图。通过观察到这样的目标视图深度信息,可以通过深度引导渲染来共同生成关联的RGB图像和语义分割。在作者的实验中,作者定量和定性地证实,本文的GSNeRF在真实世界和合成数据集上的表现优于现有的通用语义感知NeRF方法。

开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?
开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读