IEEE'24 | 实时跟踪革命！推理仅需36毫秒！重塑AR装配体验！

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

这篇文章主要介绍了一种名为GBOT的实时图形跟踪方法，旨在辅助增强现实（AR）中的装配任务。该方法利用先前装配姿态的先验知识，结合了6D姿态估计和物体跟踪技术，通过运动学链接跟踪多个装配部件。作者还提出了一个名为GBOT的数据集，用于评估他们的方法。实验结果表明，该方法在各种条件下都表现良好，特别是在具有不同光照、手部遮挡和快速移动等情况下。文章的主要贡献包括提出了一种新的跟踪方法，建立了一个可用于评估的数据集，并展示了该方法在AR辅助装配任务中的潜力。此外，文章还讨论了未来的研究方向，包括对具有纹理、透明或反射特性的物体进行跟踪，以及改进姿态估计算法。

下面一起来阅读一下这项工作~

论文题目：GBOT: Graph-Based 3D Object Tracking for Augmented Reality-Assisted Assembly Guidance

作者：Shiyu Li,Hannah Schieber等

作者机构：慕尼黑工业大学等

论文链接：https://arxiv.org/pdf/2402.07677.pdf

代码链接：https://github.com/roth-hex-lab/gbot

可装配部件的指导是增强现实的一个有前景的领域。增强现实装配指导需要目标物体的6D对象姿态实时获取。特别是在时间关键的医疗或工业环境中，连续且无需标记的追踪单个部件对于将指导说明叠加在目标物体部件上或旁边至关重要。在这方面，用户手部或其他物体的遮挡以及不同装配状态的复杂性使得无需标记的多物体追踪变得复杂且难以实现稳健和实时。为了解决这个问题，我们提出了基于图形的物体跟踪（GBOT），这是一种新颖的基于图形的单视图RGB-D跟踪方法。通过6D姿态估计初始化实时无需标记的多物体跟踪，并更新基于图形的装配姿态。通过我们的新颖多状态装配图实现对各种装配状态的跟踪。我们利用各个装配部件的相对姿态来更新多状态装配图。在这个图中连接各个对象可以在装配过程中实现更稳健的对象跟踪。作为未来工作的基准，我们还提供了用于3D打印的装配资产。在合成数据上的定量实验和在真实测试数据上的进一步定性研究显示，GBOT能够胜过现有的工作，从而实现了上下文感知的增强现实装配指导。

GBOT数据集包含的所有五种装配资产的概述。

我们的合成训练图像。生成了带有3D打印零件的聚类场景，用于装配零件。为了增加域随机性，我们添加了来自T-less 数据集的对象，变化的光照条件和随机化的背景。

不同光照条件、运动模糊和遮挡的合成和真实场景：我们进行消融研究，考虑到不同的光照条件、运动模糊和手部遮挡作为真实数据的限制。

GBOT合成数据集上的定性评估。我们在三个装配工具Nano Chuck by Prima、Hand-Screw Clamp和Liftpod上进行了比较（从上到下）。跟踪的对象被单独着色。随着装配状态的不断发展，GBOT比现有技术的跟踪器更加注重跟踪。

在真实场景中对GBOT与YOLOv8Pose、SRT3D、ICG、ICG+SRT3D和GBOT + re-init进行定性评估。我们将装配工具Hobby Corner Clamp与不同方法进行了比较。我们显示了以不同颜色跟踪的对象。YOLOv8Pose无法检测和估计被遮挡的装配对象的姿态，而跟踪算法仍然能够更新对象姿态。随着装配状态的不断发展，GBOT比现有技术的跟踪器SRT3D、ICG和ICG+SRT3D更加注重跟踪。

在真实杂乱场景中的评估：我们随机放置了GBOT装配资产以及一些干扰物体，以测试杂乱场景的影响。我们的训练数据通过域随机化有助于在杂乱的场景中检测物体。

在合成场景上进行装配感知训练，并在真实场景上进行评估：我们的训练数据通过装配数据有助于在装配过程中克服遮挡。

基于实时多物体装配图跟踪，由6D姿态估计驱动，用于多状态装配，包括装配状态识别。
一个合成数据集和未标记的真实测试数据，用于公开可用的和可3D打印的装配资产，作为AR装配指导的定量和定性基准。

目标跟踪初始化：首先，利用先进的对象检测器YOLOv8进行6自由度（6D）对象姿态估计，将其设计为单阶段方法。在检测到对象的边界框之外，还扩展了检测输出以获取对象姿态估计所需的关键点。关键点直接检测在对象表面上，而不是在3D边界框的角上。这样做的目的是更准确地捕获对象的表面特征。检测到关键点和边界框后，将它们输入到RANSAC PnP（透视nP）中，以恢复对象的姿态。
关键点选择：为了在每个对象上定义表面关键点，采用了最远点采样方法，该方法在对象表面上初始化一个关键点集，并添加总共N个点。鉴于对象尺寸的变化，经济性和可见性之间的平衡，使用17个关键点作为经济取舍。
6D姿态预测：PnP是解决给定对象模型的N个3D点和相应预测2D关键点的6D对象姿态的问题。通过RANSAC PnP处理对象检测器的输出，以恢复6D对象姿态。训练网络时，采用YOLOv8提出的关键点回归损失。
基于图的对象跟踪：利用6D对象姿态估计来不断检测单个对象，但这对计算能力要求很高，限制了实时性能。对象跟踪提供了实时姿态信息，但需要姿态初始化。因此，使用6D姿态估计进行对象跟踪初始化。基于图的对象跟踪是基于时间新帧中对象姿态的更新。大多数跟踪算法定义了基于能量函数或姿态变化向量的概率模型。我们使用基于能量函数的方法，该方法被定义为负对数概率，遵循Stoiber等人的方法。我们的跟踪方法扩展了他们的基于图的方法，该方法使用不同对象之间的运动学链接来简化跟踪过程。与他们的工作不同，我们根据先验已知的装配图实时更新这些链接。
确定装配状态：为了在装配过程中切换不同的装配状态，我们利用了两个装配部件之间的相对姿态的知识。我们通过测量连接部件之间的相对姿态来获得装配状态。如果两个部件之间的相对姿态（与地面真实姿态相比）小于跟踪误差，则假定特定的装配状态已完成。我们计算翻译和旋转的误差，并将其用作切换条件。
GBOT数据集：为了训练和评估跟踪器的性能，使用了合成数据生成器。该数据集包含五个3D打印装配物体，用于测试算法。通过域随机化，例如变化的背景纹理、不同的光照条件和干扰物体，生成了合成数据。为了进行质量评估，还记录了真实场景的图像，但由于注释的限制，这些图像不包含地面真实姿态。

评估指标：使用平均距离误差（ADD）和平均距离误差-S（ADD-S）作为评估6D姿态准确性的主要指标。还定义了平均平移误差和平均旋转误差作为补充指标。
实现细节：算法基于YOLOv8扩展，使用PyTorch实现6D姿态估计，并使用NVIDIA TensorRT加速。跟踪、推断引擎和RESTful API使用C++ 17实现。
评估数据集：使用GBOT数据集进行评估，包含四种条件（正常、动态光照、运动模糊、手部遮挡）。与YOLOv8Pose、最先进的跟踪方法和GBOT进行比较。
实验结果：GBOT在不同条件下的表现优于YOLOv8Pose和其他跟踪方法。对于包含更多部件的装配资产，GBOT的表现更加优越。
定量评估：在不同条件下的定量评估结果显示，GBOT在跟踪精度上优于其他方法。特别是对于手部遮挡等情况，GBOT表现出更好的鲁棒性。
定性评估：通过视觉化结果，展示了GBOT在跟踪装配资产时的鲁棒性和准确性。GBOT能够跟踪较小的部件，并在强烈手部遮挡时表现良好。
实时性：GBOT能够在实时应用中部署，保证其在增强现实（AR）应用中的使用。通过在Microsoft Hololens 2上展示了一个AR应用程序装配指导的示例来证明。

我们的方法侧重于无纹理的打印零件。未来的挑战可能包括具有反射性或透明性的物体，如医疗器械，以进一步测试跟踪方法的边界。通过改进我们的6D姿态估计算法，结合几何先验，可以更好地跟踪具有几何模糊性的较小目标。此外，螺钉或类似物体可以更多地基于类别级别进行检测，以实现更可扩展的连接部件方法。为了克服遮挡，多摄像头设置可能会很有用，可能还包括AR设备的摄像头。为了应对更具挑战性的装配对象，可能需要更强大的跟踪重新初始化。

本文提出了一种新颖的适用于AR辅助装配任务的实时图形跟踪方法。GBOT使用基于先前装配姿态的先验知识，通过运动学链接跟踪多个装配部件，并将6D姿态估计的知识与物体跟踪相结合。我们的跟踪使GBOT能够在各种条件下持续跟踪对象，在装配过程中。为了使得在各种场景下与最先进技术进行比较，我们提出了GBOT数据集和额外记录的实景。在这个数据集上，我们评估了我们的YOLOv8Pose，跟踪方法SRT3D，ICG，ICG+SRT3D和GBOT。我们的数据集包含五个装配资产，每个资产都有三个或更多个独立部件。数据集的场景有四种条件，正常、动态光照、运动模糊和手部遮挡。GBOT在具有不同照明、手部遮挡和快速移动等情况下的合成场景以及真实录制的场景中表现良好。我们展示了与YOLOv8Pose相比，跟踪更准确，并且使用我们动态创建的运动学链接比单独跟踪更优越。GBOT在GBOT数据集上的表现优于最先进的跟踪算法，该数据集易于复现，旨在成为装配任务的基准。总之，我们的方法和数据集是迈向实时和稳健物体跟踪以及AR引导装配过程的有希望的一步。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。