天天看点

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

作者:3D视觉工坊

作者:Haoran Li | 编辑:3DCV

添加微信:cv3d008,备注:方向+单位+昵称,拉你入群。文末附行业细分群

1.效果展示

DreamScene使用3D高斯生成高质量具有一致性且可编辑的3D场景。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

这主要源于DreamScene中Formation Pattern Sampling(FPS)方法可以生成高质量的3D物体。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

2.论文信息

标题:DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling

作者:Haoran Li, et al.

机构:University of Science and Technology of China、HKUST、The Hong Kong Polytechnic University

论文:https://arxiv.org/abs/2404.03575

代码:https://github.com/DreamScene-Project/DreamScene

主页:https://dreamscene-project.github.io/

3.摘要

文本到3D场景生成在游戏、电影和建筑领域具有巨大的潜力,但现有的方法仍然难以保持高质量、一致性和编辑灵活性。在本文中,我们提出了DreamScene,这是一个基于三维高斯的新型文本到3D场景生成框架,主要通过两种策略来解决上述三个挑战。首先,DreamScene采用了Formation Pattern Sampling(FPS),这是一种以3D物体形成模式为指导的多时间步采样策略,可以快速形成语义丰富和高质量的表示。FPS利用3D高斯滤波来优化稳定性,并利用重建技术生成可信的纹理。其次,DreamScene采用了专为室内和室外场景设计的渐进式三阶段相机采样策略,有效地确保了物体与环境的融合以及场景范围内的3D一致性。最后,DreamScene增强了场景编辑的灵活性,通过集成对象和环境,使有针对性的调整成为可能。

4.算法解析

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

Dreamscene主要由FPS方法和相机采样策略两部分组成,其中FPS方法中包括多时间步采样、3D高斯滤波、3D重建优化生成。

具体的算法流程如下,首先根据prompt分割出场景中的object语义和环境语义,对于场景中的单个object,利用Point-E得到相应的初始化点云,之后随机选取相机位姿进行渲染,使用多时间步采样策略指导3D内容优化,这种优化策略不仅保证在优化过程中对3D 内容的形状约束,同时可以丰富语义信息。然而,过多的3D 高斯会阻碍优化过程,因此3D高斯滤波实现了在优化过程中过滤掉冗余的3D高斯分布。在优化的后期阶段,由于已生成的3D内容具有很高的一致性,因此Dreamscene使用3D重建的方法加速生成3D内容的合理表面纹理。

对于场景的环境,Dreamscene使用一个渐进式的三阶段相机采样策略优化环境生成。首先对环境进行初始化(室内环境初始化为方形点云,室外环境初始化为半球点云),之后将优化结束的object与环境组合在一起。在相机采样的第一阶段,该方法在场景中心的一定范围内进行相机位姿采样以生成周围环境(室内的墙壁、室外远处环境)的粗略表示;在第二阶段,通过采样一些特定区域的相机位姿来生成粗糙的地面,并且会尽可能保证地面与周围环境接触部分的连贯性;在第三阶段,该方法使用在前两阶段中的所有相机位姿来优化所有的的环境元素,之后再利用3D 重建的方法以获得更合理的纹理和细节。

5.实验

Dreamscene使用GPT-4作为场景提示分解的LLM, Point-E生成稀疏点云用于物体的初始表示,Stable Diffusion 2.1作为2D文本到图像模型。物体和环境的最大迭代次数分别设置为1,500和2,000轮。初始时间间隔值m,从4开始,每400轮减少1。

Quality

DreamScene在室内和室外场景下与现有SOTA方法的对比,可以看到Text2Room和Text2NeRF只有在合适的相机位姿下生成才会产生令人满意的结果。对比文本到3D生成单个对象的方法,Dreamscene的FPS方法也可以在短时间内按照文本提示生成高质量的3D表示。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法
中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

Consistency

Dreamscene的生成结果在较高生成质量的同时,保证了较好的3D一致性。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

Scene Editing

DreamScene可以通过调整对象的仿射组件的值来添加或删除对象或重新设计其在场景中的位置。在进行这些编辑时,需要在物体的原始位置和新位置重新采样相机姿势,重新优化地面和周围方向。此外,Dreamscene还可以改变文本提示来改变场景中的环境或对象的样式。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

Ablation

在“A DSLR photo of Iron Man”提示下,经过30分钟优化后的结果。如图所示,与DreamTime和DreamFusion中提到的分数蒸馏采样(SDS)相比,多时间步采样(MTS)形成了更好的几何结构和纹理。FPS (Formation Pattern Sampling)是在MTS的基础上建立起来的,采用重构的方法来创建更平滑、更可信的纹理,体现了FPS的优越性。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

下图对比了采用高斯滤波算法压缩前后重构和生成任务的结果。可以看出,在重建任务中,Dreamscene的压缩率达到了73.9%,整体图像略有模糊,部分细节丢失。然而,在Dreamscene的生成任务中,压缩率为66.1%,且没有明显的质量损失。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

Quantitative Results

Dreamscene计算环境生成阶段的生成时间。表的左侧显示了具有编辑功能的环境生成时间最短,右侧显示了用户调研情况(各项满分5分,分值越高越好),其中DreamScene在一致性和合理性方面遥遥领先于其他SOTA方法,生成质量也很高

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

6.总结

今天笔者为大家介绍了一种新的文本到3d场景生成策略DreamScene。通过采用FPS,相机采样策略,整合对象和环境,Dreamscene解决了当前文本到3d场景生成方法中效率低下、不一致和可编辑性有限的问题。大量实验证明DreamScene具有在众多领域广泛应用的潜力。

中科大开源 | 基于3D高斯和形成模式采样文本到三维场景生成方法

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

3D视觉学习圈子

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3D视觉交流群

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

继续阅读