NeRF最新综述！超全！

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

标题：Neural Radiance Field-based Visual Rendering: A Comprehensive Review

作者：Mingyuan Yao, Yukang Huo, Yang Ran, Qingbin Tian, Ruifeng Wang, Haihua Wang

机构：中国农业大学

原文链接：https://arxiv.org/abs/2404.00714

近年来，神经辐射场（NeRF）在计算机视觉和图形领域取得了显著进展，为解决包括3D场景理解、新视角合成、人体重建、机器人学等关键任务提供了强大的技术支持，学术界对这一研究成果的关注日益增长。作为一种革命性的神经隐式场表示，NeRF在学术界引发了持续的研究热潮。因此，本综述的目的是对过去两年内有关NeRF的研究文献进行深入分析，为初涉研究者提供全面的学术视角。本文首先详细阐述了NeRF的核心架构，然后讨论了各种改进NeRF的策略，并在不同的应用场景中对NeRF进行了案例研究，展示了其在不同领域的实际效用。在数据集和评估指标方面，本文详细介绍了NeRF模型训练所需的关键资源。最后，本文对NeRF未来发展趋势和潜在挑战进行了展望性讨论，旨在为该领域的研究人员提供研究启示，并促进相关技术的进一步发展。

随着NeRF的出现，基于NeRF和其他神经体积表示的神经体积表示已成为一种令人信服的技术，用于学习如何从图像中表示3D场景，以从未观察到的视点渲染逼真的场景图像，并且相关文章呈指数增长。

NeRF现在广泛应用于新视角合成，三维重建，神经渲染，深度估计，姿态估计等场景。考虑到基于NERF方法的快速进展，跟踪新的研究发展变得越来越具有挑战性。因此，对该研究领域最新进展进行全面审查至关重要，这将对该领域的研究人员产生积极影响。

本文详细介绍了NERF的最新进展。主要贡献如下：

（1）首先对现有的与NeRF相关的文献进行了全面回顾，其中包括对早期工作的总结以及对最近研究趋势的分析。

（2）对最初的NeRF模型的各个元素进行了详细描述，包括其网络结构，损失函数和渲染方法。

（3）详细收集和分析了多个数据集，总结了当前常用的NeRF评估指标。

（4）对NeRF的变体进行了分类，并详细介绍了它们在提高渲染质量，加速计算以及在室内，室外，人体，交互场景等方面的应用中的创新。还比较了不同模型在速度，准确性和其他关键性能指标（如渲染质量，内存使用和泛化能力）方面的表现。

（5）确定了当前研究中的主要障碍，如对计算资源的需求，模型的可扩展性以及处理复杂场景的能力。进一步探讨了这些挑战的可能解决方案，并提出了未来研究的潜在方向。

（6）总结了NeRF的主要贡献和影响，以及对该领域未来发展的展望。

A. 合成数据集

NeRF合成数据集（Blender数据集）：在最初的NeRF论文中提出，该数据集由使用Blender软件精心制作的复杂3D场景组成，包括各种物品，如椅子、鼓、植物等。此外，还提供了分辨率高达800x800像素的高分辨率图像，并为每个场景配备了适当的图像集合，用于训练、验证和测试。此外，该数据集还包括深度和法线图，以及全面的相机变换数据，为训练NeRF模型提供了重要的几何和照明细节。

本地光场融合（LLFF）数据集：这是用于创新视图合成研究的工具，合并了人工和实际图像，旨在促进虚拟探索中复杂场景的描绘。该数据集包括使用SUNCG和UnrealCV创建的人工图像，以及从便携式手机拍摄的24张真实场景照片。LLFF数据集非常适合广泛的新视图合成活动，并且非常适合深度学习模型的训练和评估，特别是在管理在现实场景中合成新视图方面。此外，LLFF还提供了一种有效的视图合成算法，通过将多平面图像（MPI）场景描绘与本地光场合并，从而扩展了传统的光场采样理论。

Mip-NeRF合成360°数据集（NeRF-360-V2数据集）：该数据集是从Mip-NeRF扩展的合成数据集，旨在解决具有无限可能性的场景中的3D重建挑战。该数据集通过使用非线性场景参数化、实时精馏和创新的取向失真正则化技术来解决无限场景的困难。Mip-NeRF 360具有创建逼真人工视角和复杂深度图的能力，适用于非常复杂、无限真实生活场景。在数据集中，有9个场景，均匀分布在室内和室外环境之间，每个场景都具有一个复杂的主要对象或空间，以及一个复杂的背景。

NVS-RGBD数据集：包括由消费级深度传感器记录的真实世界场景的粗略深度图。该数据集的目标是建立一个新的NeRF评估标准，以评估使用有限视图集创建新视角的有效性。NVS-RGBD数据集包括8个场景，从Azure Kinect、ZED 2和iPhone 13 Pro等消费级传感器收集了粗略深度图。这些深度图中的伪影可能与传感器噪声中的伪影不同。

DONeRF数据集：该数据集涵盖了各种三维场景，包括推土机、林地、教育空间、圣米格尔、亭子和美发店等。一系列开发者使用Blender创建了这些情景，为研究神经辐射场和资源提供了实用基础，特别是对于即时渲染和交互使用。

B. 实际数据集

坦克与寺庙数据集：该数据集包括从实验室外部收集的标准序列，提供室内和室外环境的高清视频素材。视频序列有助于创建利用视频输入来提高重建准确性的创新管道。工业激光扫描仪用于收集数据集的真实数据，涵盖了室内和室外环境的场景。此外，该数据集提供了训练和测试数据集，将测试数据分为中级和高级类别，以适应不同复杂度的重建活动。

DTU数据集：该数据集采用了多视图立体格式，与其前身相比，场景增加了十倍，多样性显著提高。更准确地说，它包括80个场景，具有广泛的多样性。每个场景由49或64个准确的相机放置和结构化光线参考扫描组成，生成1200×1600像素的RGB图像。

Euroc数据集：该数据集涵盖室内和室外数据，包括各种传感器信息，如相机和IMU读数。该数据集在各种研究领域广泛应用，包括机器人视觉、确定摄像机角度、校准摄像机以及位置和导航。该方法的主要特点是能够以高精度提供传感器数据和真实室内环境，通过灰度图像和紧密集成的IMU测量来评估我们方法的重建和定位精度。

Replica数据集：该数据集代表了Facebook创建的室内场景的优质3D重建。该收藏包括18个精细逼真的室内设置，每个都经过精心制作和描绘，以保持视觉真实感。每个数据集场景都包含了一个紧凑的三维网格、详细的高动态范围（HDR）纹理、玻璃和镜面表面的数据，以及语义分类和实例分割。

BlendedMVS数据集：这个庞大的数据集专为多视图立体匹配（MVS）网络定制，提供大量的训练实例，以便于基于学习MVS的算法。BlendedMVS收藏包含超过17,000张详细的图像，涵盖了城市区域、结构、雕塑和微型物品等各种景观。这个数据集的广泛性和多样性使其成为MVS研究的重要资产。

亚马逊伯克利物体数据集（ABO数据集）：该数据集是一个广泛的3D对象理解收藏，旨在连接现实和虚拟3D领域。数据集包括大约147,702个产品列表，每个产品与目录中的398,212个不同图像相关联，每个产品具有多达18个独特的元数据特征，包括类别、颜色、材料、重量和大小等。ABO数据集包括8,222个物品的360度图像和7,953个产品的艺术家制作的3D网格表示。该数据集非常适合3D重建、材料估计和跨领域的多视图对象检索，因为这些3D模型具有复杂的几何设计并且根据物理属性包含材料。

3D中的常见对象数据集（CO3Dv2数据集）：该数据集包括150万个多视图图像帧，跨越50个MS-COCO类别，提供丰富的图像资源、精确的相机位置和3D点云注释。CO3Dv2的广泛性和多样性使其非常适合评估创新的视图合成和3D重建技术，推动3D计算机视觉研究的进步。

3D-FRONT数据集：这是由阿里巴巴淘宝技术部、西蒙弗雷泽大学和中国科学院计算技术研究所共同创建的一个大型人工室内场景数据集。该数据集提供了精心设计的房间设计以及大量样式兼容且质量高的3D模型。3D-FRONT设施拥有18,797个房间，每个房间都配备了独特的3D元素，以及7,302件具有优质纹理的家具。数据集的特点涵盖了从布局语义到每个对象的复杂纹理的广泛范围，旨在辅助诸如3D场景理解、SLAM以及3D场景的重建和分割等领域的研究。此外，数据集还包括Trescope，一种简化的渲染工具，用于促进2D图像及其注释的基本渲染。

SceneNet RGB-D数据集：该数据集是一个包含500万个合成室内场景的真实图像的集合，具有相应的地面实况数据。数据集中的场景是随机生成的，包含255个不同的类别，通常被重新组合成13个类别，类似于NYUv2数据集。这些合成场景提供了丰富的视角和照明变化，使数据集非常适合室内场景理解任务，如语义分割、实例分割、目标检测以及光流、深度估计、相机姿态估计和3D重建等几何计算机视觉任务。

C. 人脸数据集

CelebV-HQ数据集：一个广泛、优质且多样的视频集合，精心标记了面部特征，包含35,666个剪辑，分辨率最低为512x512，涵盖15,653个不同的身份。每个视频剪辑都手动标记了83种不同的面部特征，包括外观、动作和情感，可用于面部识别、表情研究和视频理解等研究领域。

CelebAMask-HQ数据集：所述数据集是一个广泛的高清面部图像集合，包括30,000张从CelebA数据集中选择的图像。每张图片配有一个512*512像素的分割掩码。研究人员通过手动标记这些掩码，获取了详细的面部区域数据，包括皮肤、眼睛、鼻子、嘴巴等19种面部特征。

VoxCeleb数据集：这个数据集是牛津大学的研究人员开发的一个大规模说话者识别数据集。它包含大约100,000个来自YouTube视频的1,251个名人的语音剪辑。VoxCeleb数据集旨在支持说话者识别和验证的研究，提供了一个真实、多样化和大规模的数据资源。数据集中的语音剪辑涵盖不同年龄、性别、口音和职业，以及各种不同的录制环境和背景噪音。VoxCeleb分为两个子集：VoxCeleb1和VoxCeleb2。数据集的音频采样率为16kHz，16bit，单声道，PCM-WAV格式。

在野外标记的面孔（LFW）数据集：所述数据集是公开可访问的，并在面部识别研究中广泛使用。它由马萨诸塞大学阿默斯特分校的计算机视觉实验室编制，收集了来自互联网的13000多张人脸图像。这些图像涵盖了1,680个不同的个体，每个人至少有两张图像。LFW数据集的目的是提高在自然条件下的人脸识别的准确性，因此它包含了在各种不同环境中拍摄的人脸图像，如不同的光照、表情、姿势和遮挡情况。

MPIIGaze数据集：该数据集由15名用户在几个月的日常笔记本电脑使用中收集，包含213,659张全脸图像及其对应的真实凝视位置。经验丰富的采样技术确保了凝视和头部位置的一致性，以及眼睛外观和照明的真实变化。为了便于跨数据集评估，手动注释了37,667张图像的眼角、嘴角和瞳孔中心。该数据集以其个人外观、环境和摄影设备的多样性以及数据收集的延长期而脱颖而出，为研究凝视估计技术的广泛适用性提供了重要资产。

GazeCapture数据集：该数据集是一个大型的用于眼动技术的数据集，包含了来自1450多名志愿者的约250万帧图像。通过移动设备收集，该数据集旨在帮助眼动研究，并训练相关的卷积神经网络（CNN），如iTracker。GazeCapture数据集的特点包括可伸缩性、可信度和可变性，确保了数据的多样性和质量。

Flickr-Faces-HQ（FFHQ）数据集：这个面部图像集合质量上乘，包括70,000张PNG格式的图像，每个图像的分辨率为1024*1024。FFHQ涵盖了各种年龄组、种族和文化遗产，以及各种配饰，如眼镜、太阳镜、帽子等，提供了广泛的多样性。

D. 人类数据集

Thuman数据集：该数据集代表了一个广泛的公共收集，用于3D人体重建，包含约7,000个数据点。每个数据项包括一个带材料的表面网格模型、RGBD图像和相应的SMPL模型。包含各种姿势和服装的人体模型，使用DoubleFusion技术捕获和重建。数据集的发布为3D人体建模、虚拟现实、增强现实等领域的研究提供了宝贵资源。

HuMMan数据集：HuMMan数据集是一个大规模的多模态4D人体数据集，包含1,000个人类主体、400,000个序列和6000万帧数据。该数据集的特点包括多模态数据和注释（如彩色图像、点云、关键点、SMPL参数和纹理网格模型）、一个包括流行移动设备的传感器套件，以及一个旨在覆盖基本运动的传感器套件。500个动作集合，支持各种任务，如动作识别、姿势估计、参数化人体修复和纹理网格重建。HuMMan数据集旨在支持多样化的感知和建模研究，包括挑战，如细粒度动作识别、动态人体网格序列重建、基于点云的参数化人体估计和跨设备领域差距。

H36M数据集：Human3.6M数据集是一个广泛使用的3D人体姿势估计研究数据集。该数据集包括大约360万张图像，显示了11位艺术家（6男5女）在7种不同情境中参与15项标准活动，如行走、进食和交谈等。同时，数据是使用4台高分辨率摄像机和快速动作捕捉系统录制的，提供了关于3D关节位置和角度的准确信息。每个演员的BMI范围从17到29，确保了体型的多样性。

Multi-Garment数据集：用于重建3D服装的数据集包括356张图像，每张图像显示了不同体型、姿势和服装风格的个体。源自真实扫描，它提供了基于真实服装的2078个重建模型，涵盖10个类别和563个服装实例。数据集中的每件服装都有丰富的注释，包括3D特征线（如领口、袖口轮廓、下摆等）、3D身体姿势和相应的多视角真实图像。

MARS数据集：该数据集是一个综合的基于视频的人员重新识别（ReID）编译，包含1,261个独特的行人，由近乎同时运行的六台摄像机捕获，每个行人至少由两台摄像机捕获。MARS数据集的特点包括步行姿势、服装颜色和光照的变化，以及不太理想的图像清晰度，使其识别更具挑战性。此外，数据集包含3248个干扰者，以模拟现实场景的复杂性。

E. 其他数据集

InterHand2.6M数据集：该数据集是一个大规模的手势识别数据集，包含由21个不同的人在受控环境中捕获的超过260万个手势实例。数据集提供了21种手势类别的注释，包括常见手势，如拳头、手掌展开、竖起大拇指等。每个手势都有多种变化，如不同的手势姿势、背景和光照条件。InterHand2.6M数据集旨在支持手势识别算法的开发和评估，特别是在复杂场景和多样化手势表达方面。

TartanAir数据集：这个数据集由卡内基梅隆大学开发，旨在挑战和推动视觉SLAM技术的极限。该数据集在高度真实的模拟环境中生成，包含多样化的光照、天气条件和移动物体，以模拟真实世界的复杂性。TartanAir提供了丰富的多模态传感器数据，包括RGB立体图像、深度图像、分割标签、光流和相机姿态信息。这些数据帮助研究人员开发和测试SLAM算法，特别是在处理具有挑战性的场景时。

SUN3D数据集：该数据集包含广泛的RGB-D视频，显示了各种场所和结构的场景。数据集包括415个序列，跨254个不同的位置和41个独特的结构记录，每个帧详细说明了场景中物体的语义划分和相机的位置。

自 NeRF 技术问世以来，它已经推动了计算机视觉、虚拟现实（VR）、增强现实（AR）等各个领域的技术进步。此外，NeRF 在机器人技术、城市规划、自动驾驶导航等领域展示了显著的潜力和应用价值。

神经辐射场作为一种新兴的三维场景表示方法，在计算机视觉和图形领域引起了广泛关注。然而，尽管其在渲染质量和细节方面取得了显著成就，但NeRF仍然面临一系列指向未来方向的挑战。

A. 关于计算效率的讨论

随着深度学习方法的发展，预计未来的研究将集中于提高NeRF和类似技术的计算效率。这样的研究可以探索创新的采样方法，增强网络配置，整合现有的几何理解，并创建更高效的渲染算法。未来，提高计算效率的追求将集中于提高渲染速度和减少NeRF资源使用量。

研究人员可能会探索改进的采样和集成技术，以减少每个图像渲染的计算需求。例如，NerfAcc整合了各种采样技术，使用统一的透射率估计器，实现更快的采样速度和更低的渲染质量。相反，预计进一步的研究将集中于改进网络配置，如MIMO-NeRF[98]，通过应用多输入多输出(MIMO)、多层感知器(MLPs)，旨在减少渲染过程中MLP操作的频率，从而提高整体渲染速度。此外，整合深度学习的最新发展，包括Transformer架构和无监督学习方法，可能为NeRF的效率提升铺平道路。

B. 关于较少视图渲染的讨论

目前，结合较少视图和单视图的领域正在迅速扩展，成为计算机视觉和图形研究的焦点。诸如NeRF之类的方法的出现使科学家能够从一组受限制的观点创建出优秀的3D图像。即使NeRF具有令人印象深刻的多视图合成能力，由于训练数据不足，其效力仍受到限制，可能导致过拟合和几何重建错误。

当数据缺乏时，当代研究正在探索各种正则化技术来提高合成质量。例如，通过实施几何先验(GeoNeRF)、使用生成对抗网络(GAN) (PixelNeRF)或增强渲染方法(ViP-NeRF)等研究，改进模型的泛化能力。尽管这些方法在减少训练时间和提高渲染质量方面取得了进展，但它们仍然面临着稀疏视图、管理遮挡和恢复几何细节等障碍。随后的研究可能集中于创建更有效的训练方法，增强网络结构以捕获更好的场景细节，并研究无监督和自监督学习技术，以减少对大量标记数据的依赖。此外，将物理模拟与场景理解相结合的混合方法可能会在领域中引入新的进展，增强诸如虚拟现实、增强现实和自动驾驶车辆等领域。

C. 关于渲染质量的讨论

关于渲染质量，当代研究集中于两个主要类别，即高分辨率渲染和模型的泛化潜力。在通过模型优化创建高分辨率、高质量图像(例如超过4K的图像)时，处理大量数据和计算任务并保持复杂细节仍然是一个重要障碍。UHDNeRF和RefSR-NeRF改进其网络结构以提高模型的检测精度。然而，UHDNeRF通过合并显式和隐式场景描述来提高模型的渲染，从而提高了4K UHD分辨率的细节效率，而RefSR-NeRF通过将高分辨率参考图像合并到超分辨率视图的创建中来放大NeRF的高频细节。就其泛化能力而言，NeRF在处理不熟悉的场景和数据方面的熟练程度受到限制，需要通过改进的网络设计和训练方法来加以增强。NeRFSR通过过采样和联合优化技术增强了模型对新视图的效率，而NeRF通过将可适应的神经辐射场结合到动态场景中增强了模型的泛化能力。

D. 关于成像障碍的讨论

关于成像障碍的增强，研究人员的主要关注点是解决具有反射和透明特性的对象处理的挑战。鉴于NeRF在与具有反射或透明特性的物体交互时经常导致模糊或扭曲的图像。作为对这一挑战的回应，MS-NeRF和Ref-NeRF通过解决多视图一致性问题来解决这一问题。MS-NeRF通过将场景描述为具有多个平行区域的特征场来处理反射和透明元素，而Ref-NeRF通过将NeRF处理反射表面的能力结合到基于视图的结构化和参数化反射表示中，从而产生更准确的渲染结果。为了解决复杂照明场景中更广泛的渲染问题，包括动态范围照明、阴影和整体照明影响，可能需要进一步的研究和方法来提高NeRF的效率。随后的研究应探讨将精确的物理照明模型与NeRF相结合的技术，并创建新的数据集和评估标准，以评估和确认这些方法在复杂照明场景中的有效性。

E. 关于应用场景的讨论

关于实际应用，最近的研究主要集中在交互式渲染、制作肖像和面孔以及场景的真实重建，如下所述：

1）交互式渲染技术：目前的交互式渲染方法研究集中于提高渲染效率、丰富用户编辑过程，并拓展多模态交互特性的范围。然而，在这些领域仍然存在一些障碍和限制。仍然需要提高用户编辑界面的直观性和适应性，以使普通用户能够在没有复杂培训的情况下执行熟练的编辑任务。在多模态交互方面，提高对文本、图像和音频等各种输入的集成是至关重要的，以实现更直观、更自然的编辑过程。此外，当前的方法在广泛适用性方面仍然存在困难，可能会降低模型的灵活性和对不熟悉场景和对象编辑的质量。未来的研究可以探索这些途径来解决这些问题。最初，通过像NerfAcc这样的优化算法和采用更有效的硬件加速方法，包括GPU和TPU，可以实现渲染的实时性和效率的提高。此外，改进用户界面设计以提高直观性和易用性，可以减轻用户编辑的难度，从而提高编辑的精度和满意度，就像ICE-NeRF和NaviNeRF所实现的那样。增强模型的多模态融合特性是可行的，使其能够更有效地理解和响应各种输入。最终，为了增强模型的泛化能力，并在各种应用中保持出色的渲染和编辑，可能需要在不同领域建立数据集、实施元学习方法，并创新模型的正则化技术。通过这些努力，未来的交互式渲染技术将能够更好地满足用户需求，并为各种应用领域提供更强大、更灵活的工具。

2）肖像重建：面部合成技术在未来具有巨大潜力，特别是为了提高现实感和用户交互体验。诸如FaceCLIPNeRF之类的技术的出现突显了基于文本描述准确处理3D面部表情和特征的能力。这种方法不仅从静止图片中检索数据，而且还保留了来自不同角度的一致性，为制作定制的媒体内容铺平了道路。相反，NeRFInvertor方法展示了从单一图像创建真实身份的高级动画，为游戏、电影和虚拟现实的使用提供了巨大潜力。此外，GazeNeRF的创建展示了利用3D感知方法改变面部属性，如眼睛位置，以提高虚拟角色的交互性和真实性的能力。最后，RODIN框架通过3D扩散网络提出了生成和修改数字化头像的创新机会，增强了定制和高精度3D角色的制作效率。这些技术的进步预示着面部合成技术的未来发展，重点是实时处理、多样性和为用户定制，但同时也引入了关于隐私保护和道德考虑的新挑战。

3）人体渲染：目前，人体渲染领域正在经历双重增长，涵盖了技术进步和应用范围的扩展。从技术角度来看，新的研究发现，如TransHuman和GM-NeRF展示了在有限数据的情况下，通过使用多视角视频教育有条件的NeRF来展示优越的新视图合成框架。这些方法不仅提高了渲染的即时性和广泛适用性，而且还为虚拟现实(VR)和增强现实(AR)等应用提供了强大的技术支持。此外，像PersonNeRF这样的方法允许通过使用一组个人照片创建个性化的3D模型，从而从不同的角度、姿势和外观定制可视化效果，为社交媒体、数字娱乐和电子商务提供了一种新颖的个性化方法。

其次，关于应用范围的扩展，人体渲染技术的进步正在引发各个领域的变革。例如，SAILOR框架不仅提供了优越的渲染效果，还赋予用户编辑和创作自由，为内容创作者提供了更大的创作空间和制作更多样化和详细的视觉内容的能力。此外，随着数据压缩和传输技术的进步，预计未来的人体渲染将在网络带宽有限的环境中促进有效的数据传输，从而确保在移动设备上流畅运行更高级的VR和AR体验。这一进展表明了人体渲染技术在提供引人入胜的体验和定制内容方面的日益重要，引入了新的应用领域，如娱乐、教育和医疗保健。

尽管NeRF领域面临着诸多障碍，但它具有巨大的增长前景。随着技术的不断进步，NeRF在塑造3D场景建模和渲染未来方面的重要性将不断增强。

在Mildenhall等人提出NeRF框架之后。这种模型在其开创性研究中显著提高了处理速度、输出完整性和训练数据需求等各个方面，从而超越了其原始形式的许多限制。NeRF方法的成功归因于其从有限的视角重建连续的3D景观并从不同的视角产生优质图像的能力。这项技术的出现为计算机视觉领域带来了新的方面。这一创新为观点合成、3D重建和计算机视觉中的神经渲染方面的创新方法铺平了道路，NeRF技术在风格迁移、图像编辑、头像开发和3D城市环境建模等各个领域展示了巨大的潜力。随着NeRF建模在学术界和工业界的关注度不断增加，大量的研究人员投入了大量的研究资源，促成了各种预印本和学术作品的发布。本文系统地审视了NeRF技术在技术和实际应用中的最新进展，提供了对其未来路径和挑战的全面审视和观点。本文的重点是激励该领域的学者，旨在促进NeRF相关技术的持续进步和创新。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。