天天看点

IJCV 2024 | 国防科大最新提出多帧光流框架SplatFlow

作者:3D视觉工坊

1. 导读

多帧设定有望潜在地缓解光流估计(OEF)中挑战性的遮挡问题。遗憾的是,多帧OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow,其引入了可导Splatting变换对前一帧的运动特征进行对齐,并设计了一种Final-to-All的嵌入方法,将对齐后的运动特征输入到当前帧的估计中,从而对现有的两帧骨干网络进行重构。大量的实验表明,SplatFlow在KITTI2015和Sintel基准测试中均实现SOTA,大大优于所有已发布的方法。本工作现已发表在计算机视觉顶级期刊《International Journal of Computer Vision》上。

2. 论文信息

标题:SplatFlow: Learning Multi-frame Optical Flow via Splatting

作者:Bo Wang,Yifan Zhang,Jian Li,Yang Yu,Zhenping Sun,Li Liu,Dewen Hu

机构:国防科技大学

原文链接:https://arxiv.org/pdf/2306.08887

代码链接:https://github.com/wwsource/SplatFlow

3. 方法

我们方法是为例如RAFT和GMA等单分辨率迭代骨干网络设计的多帧方法。我们以RAFT为例介绍我们的方法,如图1所示。

IJCV 2024 | 国防科大最新提出多帧光流框架SplatFlow

图1

图1中加粗的橙色和紫色横向大箭头分别代表了原始RAFT的光流估计过程(从帧到帧)和过程(从t帧到t+1帧)。我们的多帧方法从过程聚合运动估计到过程中。方法首先在过程的每一次迭代后提取运动特征。然后使用一个基于Splatting的对齐方法来获得与t帧坐标系对齐的运动特征。接着方法使用一个“Final-to-All”的嵌入方法来将对齐的运动特征输入到过程中。

如图1中运动特征编码器网络所示,我们从两帧方法RAFT中引入运动特征。具体的,网络对过程第n次迭代的相关特征和第次迭代的粗分辨率光流进行联合编码,从而得到帧第次迭代的运动特征。

如图1中基于Splatting的聚合器网络所示,我们使用其实现所提的基于Splatting的运动特征对齐方法。在提取了每次迭代的后,我们使用第次迭代的粗分辨率光流将其单向映射到帧坐标系下,得到对齐的运动特征。这样就可以实现运动特征可导且亚像素级别的填充。

如图1中“Final-to-All”嵌入器网络所示,最后一次迭代产生的对齐的运动特征会被输入到过程,用于为每次更新t帧光流提供一个有效的运动先验。

实验结果

我们首先探讨了多帧设定对遮挡的影响。表1显示了“SplatFlow-RAFT”和“SplatFlow-GMA”基线与其两帧骨干RAFT和GMA在经过C+T训练过程后的Things val和Sintel train Clean数据集以及经过S-finetune训练过程后的Sintel train和Sintel test数据集上三种类型的区域(未遮挡、遮挡和全部)上的评估结果和相对性能增量。从结果来看,经过所有训练过程后,我们的方法在所有数据集的所有三个区域都取得了显著的提高。而遮挡区域的改进最为明显,这表明网络可以让每个区域都从多帧设定中受益,特别是在遮挡区域。

IJCV 2024 | 国防科大最新提出多帧光流框架SplatFlow

表1

图2显示了我们的方法和GMA在经过S-finetune的Sintel Clean数据集和经过K-finetune训练过程的KITTI test数据集上的定性结果。实线框标记区域在t+1帧中被明显遮挡,虚线框标记区域未被遮挡,但难以估计。框中内容表明我们的方法可以获得在非遮挡区域更精细的,在遮挡区域更令人满意且避免大面积估计失败的结果。同时,图2 (a)-(c)中在Sintel基准报告的验证数值展示了我们的方法在三个区域都超过了GMA,这与表1的结论一致。

IJCV 2024 | 国防科大最新提出多帧光流框架SplatFlow

图2

我们在公开的Sintel和KITTI基准上评估了我们的方法,并将结果与之前的工作进行了比较,如表2所示。经过S-finetune训练过程(表2第二部分),我们的方法在Sintel test Clean和Sintel test Final数据集上均排名第一,EPE分别为1.12和2.07。与之前的最佳方法GMA相比,误差分别降低了19.4%和16.2%。经过K-finetune训练过程(表2第三部分),在KITTI test数据集上,我们的方法在所有基于光流的方法中排名第一。从这些结果可以看出,我们的方法在两个公开基准上达到了新的最先进的性能,从而证明了它的有效性和先进性。

IJCV 2024 | 国防科大最新提出多帧光流框架SplatFlow

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。