国防科大最新 | SceneTracker：在4D时空中追踪万物

大家好，3DCV今天给大家分享一篇首个公开的(2024.03)有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作：SceneTracker。如果您有相关工作需要分享，请联系cv3d008！

读者个人理解

在时间与空间组成的4D时空中，精确、在线地捕捉和分析长时且细粒度的物体运动，对机器人、自动驾驶、元宇宙、具身智能等领域更高水平的场景理解起到至关重要的作用。

本研究提出的SceneTracker，是第一个公开的（2024.03）有效解决在线3D点跟踪问题或长时场景流估计问题（LSFE）的工作。其能够快速且精确地捕捉4D时空（RGB-D视频）中任意目标点的3D轨迹，从而使计算机深入了解物体在特定环境中的移动规律和交互方式。

SceneTracker是一种新颖的基于学习的LSFE网络，它采用迭代方法来逼近最优轨迹。同时其动态索引和构建表观和深度相关性特征，并利用Transformer挖掘和利用轨迹内部和轨迹之间的远程联系。通过详细的实验，SceneTracker在处理3D空间遮挡和深度噪声干扰方面显示出卓越的能力，高度符合LSFE任务的需求。

最后，本研究构建了第一个真实世界的评估数据集LSFDriving，进一步证实了SceneTracker值得称赞的泛化能力。

论文信息

标题：SceneTracker: Long-term Scene Flow Estimation Network

作者：Bo Wang，Jian Li，Yang Yu，Li Liu，Zhenping Sun，Dewen Hu

机构：国防科技大学

原文链接：https://arxiv.org/abs/2403.19924

代码链接：https://github.com/wwsource/SceneTracker

所提方法介绍

我们的目标是跟踪一个3D视频中的3D点。我们形式化该问题如下：一个3D视频是一个帧的RGB-D序列。估计长时场景流旨在生成已知初始位置的个查询点的相机坐标系下的3D轨迹。默认的，所有跟踪都开始于视频的第一帧。值得注意的是，我们方法可以灵活地从任意一帧开启跟踪。我们方法的整体架构如图1所示。

图1

1.轨迹初始化

初始化的第一步是将整个视频划分为若干滑动窗口。我们以长度、滑动步长进行划分。如图1左侧所示，我们需要跟踪个查询点，以红色、绿色和蓝色点为例。对于第一个滑动窗口，位置会被初始化为查询点的初始位置。对于其他滑动窗口，其前帧会根据前一个滑动窗口的后帧的估计结果进行初始化，而其后帧会根据前一个滑动窗口的最后一帧估计结果进行初始化。以任意一个滑动窗口为例，我们得到初始化的轨迹。

2.特征编码和下采样

我们网络推理在的分辨率上。这里是一个下采样系数。首先我们使用一个Feature Encoder网络来提取图像特征。Feature Encoder网络是一个卷积神经网络，包括8个残差块和5个下采样层。不像处理RGB图像，我们直接对帧的原始深度图进行间隔为的等间隔采样。此外我们利用相机内参将从相机坐标系转换到一个由图像平面和深度维度组成的坐标系下。转换公式如下：

进一步地，我们对该初始化轨迹进行下采样得到。

3.模板特征和轨迹的更新

在Flow Iteration模块，我们迭代式地更新查询点的模板特征和3D轨迹。当处理第一个滑动窗口的第一帧时，我们使用查询点的坐标在特征图上进行双线性采样，从而获得第一帧的模板特征。然后我们将该特征在时间维度上复制次，获得所有后续滑动窗口的初始模板特征。所有滑动窗口都有一个统一的和不同的。经过次相同的Transformer Predictor模块，它们会被更新为和。

4.轨迹输出

我们首先上采样成，以匹配原始输入分辨率。然后，我们结合相机内参，将从坐标系转换到相机坐标系，得到。最后，我们链接所有滑动窗口的。相邻窗口中重叠部分采用后一个窗口的结果。

所提数据集介绍

给定一个自动驾驶数据的序列，我们的目标是构建一个帧的RGB-D视频以及第一帧中感兴趣点的3D轨迹。具体地说，我们会分别从静态背景、移动的刚性车辆以及移动的非刚性行人上采样感兴趣点。

1.背景上的标注

首先，我们利用相机内参和外参来提取第一帧的LiDAR点，这些点可以被正确地投影到图像上。然后我们使用2D目标检测中的包围框来过滤掉所有前景LiDAR点。以一个LiDAR点为例，我们根据车辆位姿将其投影到剩余的帧上。正式地，在时刻的投影点为：

这里，是时刻从车体到时间坐标系的转换矩阵。

2.车辆上的标注

与背景不同，车辆具有自己独立的运动。我们引入3D目标跟踪中的3D包围框来提供时刻从世界到包围框坐标系的转换矩阵。我们使用3D包围框来过滤出所有车辆的LiDAR点。以一个LiDAR点为例，在时刻的投影点为：

3.行人上的标注

行人运动的复杂性和非刚性决定了其标注困难，这在现有的场景流估计数据集中不包含该类数据可以进一步证明。我们使用双目视频来间接地解决该挑战。首先，我们准备一段帧的矫正双目视频。然后我们采用一个半自动的标注框架来高效且准确地标记左右目视频中感兴趣点的2D轨迹。第一步是标记感兴趣点，我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。第二步是计算粗左目轨迹，我们利用CoTracker来计算左目视频的粗轨迹。第三步是计算粗右目轨迹，我们利用LEAStereo来逐帧计算感兴趣点的视差，从而推导出粗轨迹。第四步是人工细化阶段，左右粗轨迹会在标注软件中显示，其中所有低质量的标注都会被人类标注师修正。最后，我们结合细化后的左轨迹和视差序列来构造3D轨迹。图2展示了行人的LSFE标注过程。

图2

实验结果

1.所提数据集LSFDriving示例

图3为所提LSFDriving数据集在三种类别（背景、车辆、行人）上的示例。

图3

2.所提方法SceneTracker估计效果

图4为所提方法SceneTracker在LSFOdyssey测试集上的估计效果示例。我们等间隔地展示了40帧视频中的12帧点云。方法估计出的轨迹用蓝色显示在对应点云上。从图4可以看出，面对相机和场景中动态物体的复杂运动，我们方法始终能够输出平滑、连续且精确的估计结果。

图4

3.与SF、TAP方法的定性比较

图5是我们方法与scene flow基线、tracking any point基线方法在LSFOdyssey测试集上的定性结果。我们可视化了最后一帧的预测和真值轨迹。轨迹使用jet着色。实线框标记了SF基线由于遮挡或超出边界导致的显著错误区域。从图5可以看出，相比其他方法，我们方法能够估计出厘米级别精度的3D轨迹。

图5

4.与SF、TAP方法的定量比较

表1为在LSFOdyssey测试集上3D指标的定量结果。所有数据均来自于Odyssey训练流程。从表1可以看出，我们方法在所有数据集指标上均显著超越其他方法。

表1

5.在真实场景数据集LSFDriving上的表现

表2为不同推理模式下我们方法在LSFDriving上的评估结果。从表2可以看出，在仅仅依赖合成数据进行训练的条件下，我们方法展现出值得称赞的真实场景估计性能。

表2

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。