天天看点

IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

作者:3D视觉工坊

0.这篇文章干了啥?

这篇文章提出了一种名为Focal-CVAE的框架,旨在解决双手操作中遇到的视觉感知缺陷问题,并提高操作任务的效率。该框架通过使用混合焦点注意力和显著性关注来改善环境特征提取和动作序列数据处理,以提高算法的性能和适应性。研究结果表明,Focal-CVAE在模拟和真实环境中的双手操作任务中取得了显著的改进,表明该方法具有实际应用的潜力。未来研究将进一步优化人机协作,提高算法的用户友好性。

下面一起来阅读一下这项工作~

论文题目:SignAvatar: Sign Language 3D Motion Reconstruction and Generation

作者:Lu Dong, Lipisha Chaudhary等

作者机构:Department of Computer Science and Engineering, University at Buffalo, NY, USA

论文链接:https://arxiv.org/pdf/2405.07974

实现对孤立手语单词的表达性3D动作重建和自动生成可能具有挑战性,原因是缺乏真实世界的3D手语单词数据、手语动作的复杂微妙之处以及对手语语义的跨模态理解。为了解决这些挑战,我们引入了SignAvatar,这是一个能够进行单词级手语重建和生成的框架。SignAvatar采用了基于transformer的条件变分自动编码器架构,有效地建立了不同语义模态之间的关系。此外,该方法还采用了课程学习策略来增强模型的鲁棒性和泛化能力,从而产生更加逼真的动作。此外,我们贡献了ASL3DWord数据集,该数据集由用于独特手语单词的身体、手部和面部的3D关节旋转数据组成。我们通过广泛的实验展示了SignAvatar的有效性,展示了其优越的重建和自动生成能力。代码和数据集可在项目页面1上获得。

SignAvatar在两项任务中表现出色:从视频中重建手语的3D动作以及从语义(图像、文本)中生成这些动作。顶部一行显示了一个手语视频,表示“喝” - 注意这里有些动作模糊。中间一行显示了SignAvatar的3D角色重建,底部一行展示了它从单词“喝”生成的3D手语角色。

IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

数据收集质量控制流程。这张图显示了某些“桌子”视频的降采样视频帧。这个手语单词的正确手势涉及双手和前臂水平放在身体前面,主要前臂位于非主导前臂上方,然后将它们轻轻敲击在一起。前面显示的21帧符合这个描述,而后面的灰色区域则不符合;这些帧将被手动删除。

IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

比较不同模型的3D上半身姿势估计。左侧是原始图像,中间是ExPose提取的结果,右侧是Hand4Whole提取的结果。

IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

SignAvatar可以接受图像作为输入。左侧是一幅图像,通过CLIP的文本-图像嵌入,SignAvatar可以识别对应的语义 - "书",并生成相应的三维手语动作。上排是正面视图,下排是侧面视图。

IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!
  • 我们提出了SignAvatar,这是一个手语生成框架,整合了基于transformer的CVAE架构和一个大型的视觉-语言模型CLIP。我们首次能够从孤立视频中重建3D手语动作,并且还可以从文本或图像提示生成3D动作,从而在自动手语理解技术方面取得了重大进展。
  • 我们引入了一个课程学习策略,在训练过程中逐渐增加遮罩比例。这种方法帮助SignAvatar增强了其对细粒度手势学习和泛化能力,从而有助于合成逼真和自然的手语动作。
  • 我们对SignAvatar进行了全面的评估,展示了它在手语重建中的去噪能力以及在手语运动生成方面的优越能力。此外,我们贡献了ASL3DWord数据集,其中包括单词级别的3D关节旋转序列,用于3D手语研究。

这篇文章的基本原理是使用条件变分自编码器(CVAE)框架来合成手语的3D运动序列。文章首先考虑了手语合成的问题形式化,即从视频中重建运动并生成能准确表示给定标签语义的手语运动序列。为了实现这一目标,文章采用了SMPL-X身体模型作为统一的表示模型,并将姿势和形状分离,以便更好地表达手语的真实性和自然性。然后,文章介绍了使用条件变分自编码器(CVAE)框架来建模手语合成过程。该模型由基于transformer的编码器-解码器架构组成,其中编码器提取核心结构,创建简洁的潜在表示,而解码器将这些表示与CLIP的文本嵌入结合起来,生成符合指定条件的逼真人体运动序列。文章还介绍了使用课程学习策略来训练模型,逐渐使模型接触到更容易和更具挑战性的样本,以提高性能。最后,文章使用构建的ASL3DWord数据集对SignAvatar模型进行了评估和验证。

  • 问题形式化:文章的目标是合成手语的3D运动序列,既可以从视频中重建运动,也可以从标签生成手语运动序列。为了准确传达语义,需要考虑手势、上身运动和面部表情等因素。
  • SMPL-X身体模型:为了实现手语的真实性和自然性,文章采用了SMPL-X身体模型作为统一的表示模型。考虑到身体形状的多样性,文章的目标是生成姿势参数序列。
  • 条件变分自编码器(CVAE)框架:文章使用CVAE框架来建模手语合成过程。这一框架包括一个基于transformer的编码器和解码器。编码器从输入的运动序列和文本投影中提取核心结构,创建简洁的潜在表示。解码器将这些表示与CLIP的文本嵌入结合起来,生成符合指定条件的逼真人体运动序列。
  • 课程学习策略:为了提高性能,文章引入了课程学习策略。模型逐渐接触到更容易和更具挑战性的样本,从而提高了模型的性能。
  • ASL3DWord数据集:为了评估SignAvatar模型的性能,文章构建了ASL3DWord数据集。这个数据集从WLASL视频数据集中构建而来,经过质量控制和筛选,包含了103个手语词汇的3D姿势参数序列。
IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!
IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

这篇文章主要介绍了一个名为SignAvatar的系统,用于手语动作的重建和生成:

  • 实验目的:通过实验评估SignAvatar在手语动作重建和生成任务中的性能。
  • 实验设计:使用了ASL3DWord Subset和ASL3DWord数据集进行实验。实验分为重建管道和生成管道两部分。
  • 重建管道:重建管道从初始提取的姿势分布中获取样本,使其与输入视频密切相似。重建过程使用了学习到的分布,而生成过程直接从标准正态分布中采样。重建结果与输入视频非常相似,而生成结果在整体运动上匹配但存在轻微差异。
  • 生成管道:生成管道的输入来自标准正态分布,生成过程在整体运动上匹配输入视频,但在起始和结束位置、运动范围等方面可能存在差异。
  • 评估指标:使用了四个评估指标进行评估:识别准确率、Fréchet Inception Distance(FID)、多样性和多模态性。
  • 识别准确率:用于评估重建和生成的姿势能否被同一分类器有效识别。FID:评估重建和生成运动的整体质量,通过比较特征分布计算得出。多样性:衡量所有动作类别的运动方差。多模态性:衡量每个手语词的平均方差。
  • 实验结果:实验结果表明,SignAvatar在手语动作重建和生成任务中表现出色。重建管道的识别准确率和FID得分均较高,生成管道在保持整体运动匹配的同时展现出一定的多样性。
  • 消融研究:从框架设计、课程学习策略和数据收集质量控制三个方面对SignAvatar进行了综合分析。实验结果显示,框架设计和课程学习策略对模型的性能和泛化能力有显著影响,而数据收集质量控制可以提高数据重建和生成的质量。
  • 定性结果:通过定性结果展示了重建和生成结果的质量。重建结果与特定提供的视频非常相似,而生成结果反映了多样性,可以满足不同表达习惯的需求。
  • 总结:实验结果表明,SignAvatar在手语动作重建和生成任务中表现出色,具有良好的重建准确性和生成多样性,同时在框架设计、课程学习策略和数据收集质量控制等方面取得了显著进展。
IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!
IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!
IEEE'24 | 首个2D视频重建手语3D动作超强框架Focal-CVAE!

我们提出了SignAvatar,一种从2D孤立视频中重建和生成手语3D动作的新方法。我们的课程学习策略增强了模型的可扩展性、鲁棒性、泛化能力和真实性。此外,文本驱动和图像驱动的生成方法增加了这一领域的灵活性。全面的评估展示了SignAvatar在手语重建和生成任务中的优越性能。此外,我们还为学术研究开发了一个质量受控的基于SMPL-X的3D数据集ASL3DWord。在未来,我们的目标是进一步利用CLIP提供的语义空间,探索手语中的语义相似性。此外,鉴于手语包括非手部元素,如面部表情、唇部运动和情感,我们将研究面部表情和身体姿势如何促进对手语的理解,在3D手语重建和生成的背景下进行研究。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读