天天看点

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

论文题目:Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

作者: Ruicong Liu ,Takehiko Ohkawa等

作者机构:The University of Tokyo, Tokyo, Japan

论文链接:https://arxiv.org/pdf/2403.04381.pdf

代码链接:https://github.com/ut-vision/S2DHand

这篇论文提出了一种新颖的单视角到双视角自适应(S2DHand)解决方案,旨在适应预训练的单视角估计器到双视角。与现有的多视角训练方法相比,S2DHand的适应过程是无监督的,不需要多视角注释,并且可以处理具有未知相机参数的任意双视角对,使模型适用于不同的相机设置。S2DHand基于某些立体约束构建,包括成对的跨视角一致性和两个视角之间的变换不变性。这两个立体约束以互补的方式用于生成伪标签,从而实现可靠的自适应。评估结果显示,S2DHand在不同相机对下,无论是在数据集内部还是跨数据集设置下,都取得了显著的改进,并且在性能上优于现有的自适应方法。
相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

读者理解:

这篇论文介绍了一种新颖的单视角到双视角自适应框架(S2DHand),旨在将单视角手部姿态估计器适应到双视角设置中。S2DHand是无监督的,不需要多视角标签。该方法也不需要摄像机参数,因此与任意双视角兼容。文中使用了两个立体约束作为两个伪标记模块,以互补的方式使用。该方法在数据集内和跨数据集设置下,对所有双视角对都实现了显著的性能提升。这种方法的创新性和性能表现使得它在处理双视角手部姿态估计问题上具有广阔的应用前景。

这篇论文介绍了一种新颖的方法,名为S2DHand,用于在主观视角下估计三维手部姿态。该方法通过适应单视角估计器到双视角,无需多视角标签或相机参数。具体而言,它利用了交叉视图一致性和两个相机坐标系之间的变换不变性,通过生成可靠的伪标签来提高模型在双视角下的拟合度。评估结果表明,该方法在不同摄像头对下取得了显著改进,在数据集内和跨数据集设置下均优于现有的适应方法。这篇论文的主要贡献在于提出了一种无监督的单到双视角自适应方法,为主观视角下的三维手部姿态估计提供了新的解决方案。

本文的贡献为:

  • 提出了一种新颖的无监督单到双视角自适应(S2DHand)解决方案,用于主观视角下的三维手部姿态估计。作者的方法可以将传统的单视角估计器自适应到任意双视角,无需注释或相机参数。
  • 建立了一个基于伪标签的自适应策略。它利用了交叉视图一致性和两个相机坐标系之间的变换不变性,用于可靠的伪标签生成。这导致了两个关键模块:基于注意力的合并和旋转引导的细化。
  • 评估结果表明,作者的方法对于任意放置的相机对都是有益的。作者的方法在数据集内和跨数据集设置下为所有相机对都取得了显著的改进。
相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

这部分讨论了单到双视角自适应手部姿态估计的问题设置。首先介绍了双视角数据集的表示,其中包括来自两个视角的图像对,但不包含地面真实手部姿态或相机参数。然后描述了目标,即将预训练的单视角估计器适应到任意双视角设置,而无需地面真实或相机参数。方法的输入是预训练估计器和未标记的双视角数据,输出是适应的估计器,其参数专门针对双视角情况。最后,展示了一个多视角头戴式摄像机的示例布局,以及用于探索方法性能的合成训练数据。

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

这部分介绍了提出的方法,即S2DHand框架。首先进行了一个初始化步骤,用于初始化两个视图之间的旋转矩阵,这对于建立两个相机坐标系之间的转换至关重要。方法的架构概述包括两个分支,一个是估计器H,另一个是其动量版本H'。适应过程是从成对的跨视图一致性和两个相机坐标系之间的旋转变换不变性两个立体约束出发设计的。这导致了两个关键的伪标签模块:基于注意力的合并和旋转引导的细化。这两个模块以互补的方式工作,根据预测精度,确保可靠的伪标签。

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

3.1 初始化

这部分介绍了初始化步骤,旨在估计一个相对准确的旋转矩阵R,以便将两个相机坐标系联系起来。该步骤假设初始预训练的估计器能够生成合理的预测。通过使用未标记的双视角数据,估计器可以输出一系列预测,然后通过这些预测来估计旋转矩阵R。这个过程确保了在适应过程中的旋转对齐。

3.2 单到双视角自适应

这部分介绍了单到双视角自适应过程。首先,通过初始化旋转矩阵R,开始自适应过程。S2DHand框架包括两个分支,一个是具有动态更新参数θ的估计器H(·|θ),另一个是使用时间移动平均来更新参数θ的动量版本H(·|θ)。在自适应过程中,动量模型H的作用是生成伪标签,用于监督模型H。损失函数通过比较实际预测和伪标签来计算。最后,估计器遵循DetNet的实现,直接输出热图,通过热图计算3D关节点。

3.3 伪标签: 基于注意力的合并

这部分介绍了基于注意力的合并模块,用于生成伪标签。该模块利用跨视图一致性的概念,即不同视图的预测在转换到相同坐标系后应该一致,来生成准确的伪标签。为了考虑不同视图之间的图像捕获差异,引入了关节级别的注意力机制。该模块通过将两个预测转换到相同坐标系,并使用注意力来对其进行关节级别的乘法操作,从而生成最终的伪标签。

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

3.4 伪标签: 基于旋转引导的精炼

该部分介绍了基于旋转引导的精炼(RGR)模块,用于进一步优化预测结果以使其在不同视图下保持一致性。该模块利用了旋转变换不变性的概念,即不同视图下的预测应在转换到相同坐标系后保持一致。通过最小化预测与目标旋转矩阵之间的差异,该模块能够使预测结果更加准确。最终的伪标签是根据精炼后的预测结果和基于注意力的合并模块生成的伪标签进行加权平均得到的。这种方法能够提高伪标签的质量,并进一步优化模型的性能。

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

这部分实验主要围绕单视角到双视角适应任务展开,使用了名为AssemblyHands的最新大规模基准数据集作为评估集。训练集包括两种适应情景:

1)同数据集情景,即训练集来自相同的AssemblyHands数据集;

2)跨数据集情景,使用合成数据集(包括Rendered Handpose和GANerated Hands)作为训练集。实验包括以下内容:

  • 数据集介绍:AssemblyHands是一个大规模基准数据集,包含准确的三维手部姿态注释。GANerated Hands包含超过330,000张手部彩色图像,Rendered Handpose包含约44,000个样本。
  • 实验设置:使用根相对坐标计算平均每关节位置误差(MPJPE)作为评估指标。提出了新的双视角MPJPE度量标准,同时也使用传统的单视角MPJPE。使用PyTorch实现,所有实验在单个NVIDIA A100 GPU上运行。
  • 适应结果:在同数据集和跨数据集设置下,与预训练模型相比,S2DHand在所有摄像头对上都取得了显著的精度提升,平均提升超过10%,最大提升超过20%。
  • 跨数据集比较:将S2DHand与领先的领域适应方法进行比较,包括SFDAHPE,RegDA,DAGEN和ADDA。结果显示,S2DHand在跨数据集设置下表现出色,超过了其他方法。
  • 消融研究:分析了模型中每个组件的贡献。结果表明,注意力合并模块和旋转引导精炼模块都能显著提高手部姿态估计性能。
  • 输入图像对数量:评估了S2DHand在不同输入图像对数量下的性能,结果显示当N≥1000时性能趋于稳定,选择N=1000作为最优数量。
  • 两个伪标签的互补性:实验结果显示,旋转引导精炼模块在处理不准确预测时起到了重要作用,有效地优化了伪标签。
  • 超参数分析:通过调整超参数α和β,确定了最佳参数值。
  • 定性结果展示:通过将3D手部关节投影到图像平面,展示了S2DHand在提高双视角下手部姿态估计性能方面的显著效果。

综上所述,实验结果表明S2DHand在单视角到双视角适应任务中取得了显著的性能提升,尤其在跨数据集设置下表现优异,具有很高的实用价值和应用前景。

相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架
相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架
相机参数?不需要!CVPR'24 S2DHand双视角手部姿态估计框架

本文提出了一种新颖的单视角到双视角适应框架(S2DHand),旨在将单视角手部姿态估计器适应到双视角设置中。S2DHand是一种无监督方法,无需多视角标签。本文的方法也不需要相机参数,可以与任意双视角兼容。两个立体约束被用作两个伪标记模块,相互补充。作者的方法在同数据集和跨数据集设置下,所有双视角对上都取得了显著的性能提升。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读