炸裂！准确到每个像素！CVPR'24最新3D面部追踪效果简直了！

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

这篇文章介绍了一种先进的人脸跟踪技术，包括一个高度稳健和准确的2D对齐模块。该技术在多个基准测试和下游任务中进行了验证。文章提出的方法利用两阶段流水线进行人脸跟踪，首先预测人脸模型的密集2D对齐，然后将参数化的3D模型拟合到该对齐结果上。实验表明，该方法在面部跟踪精度和3D重建准确性方面表现优异，并且能够在不同的下游任务中提高性能，如头像合成和语音驱动的三维面部动画。文章指出了该方法的局限性，如流水线不完全可微和数据受限，提出了未来的工作方向，包括扩展对齐网络以直接预测深度，以及利用合成数据集来缓解数据问题。

下面一起来阅读一下这项工作~

论文题目：3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow

作者：Felix Taubner, Prashant Raina等

作者机构：LG Electronics

论文链接：https://arxiv.org/pdf/2404.09819.pdf

在处理3D面部数据时，提高保真度并避免令人不适的山谷效应严重依赖于准确的3D面部表现捕捉。由于这种方法成本高昂，并且由于2D视频的广泛可用性，最近的方法已经专注于如何执行单眼3D面部跟踪。然而，这些方法通常在捕捉精确的面部动作方面表现不佳，原因在于它们的网络架构、训练和评估过程存在限制。为了解决这些挑战，我们提出了一种新颖的人脸跟踪器FlowFace，它引入了一种创新的2D对齐网络，用于稠密的逐顶点对齐。与之前的工作不同，FlowFace是在高质量的3D扫描注释上进行训练的，而不是弱监督或合成数据。我们的3D模型拟合模块可以从一个或多个观察中联合拟合一个3D面部模型，集成现有的中性形状先验，以增强身份和表情的解耦合，以及逐顶点变形，以进行详细的面部特征重建。此外，我们提出了一种新颖的度量标准和基准，用于评估跟踪精度。我们的方法在自定义和公开可用的基准上表现出优越的性能。我们通过从2D视频生成高质量的3D数据来进一步验证我们的跟踪器的有效性，这导致在下游任务上性能提升。

图5. 我们在Multiface基准测试的两个序列（顶部和底部3行）上的定性结果。暖色表示高误差，冷色表示低误差。DECA 、HRN 和 MPT 在颧骨和额头区域的运动中遇到困难，这在SSME误差图中可见（右列）。尽管仅使用2D对齐作为监督，我们的方法在3D重建（CD）方面表现更好（中列）。

从我们的Multiface 子集中每个受试者的一个序列中提取的片段。我们的基准包含了来自不同受试者和视角方向的各种表情。

来自FaceScape （左侧四列）和Stirling（右侧两列）数据集的FLAME注册示例。顶部一行包含了原始图像，中间一行包含了原始扫描数据，底部一行包含了拟合的FLAME模型网格。对于Stirling数据集，我们使用可用的彩色3D扫描数据生成了合成视图。

2D对齐网络具有新颖的架构，具有视觉变换器骨干和迭代的、循环的细化块。
与使用弱监督或合成数据的先前方法相反，对齐网络使用来自3D扫描的高质量注释进行训练。
对齐网络预测密集的、逐顶点的对齐，而不是关键点，这使得能够重建更精细的细节。
集成了一个现成的中性形状预测模型，以改善身份和表情的解耦合。

本文介绍了一种用于单眼3D面部跟踪的方法。其基本原理包括两个主要阶段：

密集的2D面部对齐网络：

该网络负责预测面部模型的每个顶点在图像空间中的位置。对于每个顶点，网络会输出一个位置的期望值和不确定性，以及一个UV到图像对应的映射和不确定性。网络结构包括图像特征编码器、UV位置编码模块和迭代的光流模块。损失函数采用了高斯负对数似然损失函数，同时考虑了顶点位置的预测和UV到图像的映射。

3D模型拟合：

在这个阶段，通过优化一个能量函数来拟合参数化的3D模型到预测的2D对齐观测中。能量函数包括对2D对齐的鼓励项、FLAME模型的正则项、运动平滑项、3D中性几何先验项和变形约束项。通过优化这个能量函数，可以得到最适合观测数据的3D模型和相机参数。

该方法的优点在于使用了密集的2D面部对齐，而不是传统的稀疏关键点，同时结合了3D模型拟合，可以实现准确和鲁棒的3D面部重建和运动捕捉。

训练数据：使用了包括FaceScape、Stirling和FaMoS在内的多个数据集，其中包括了FLAME模型的拟合和关键点标注。
2D对齐网络：采用Segformer-b5作为主干网络，Dimg = 512，Duv = 64，Niter = 3。使用了AdamW优化器和图像增强技术进行训练。
3D模型拟合：采用AdamW优化器和自动学习率调度器进行模型优化，直到收敛。在多视角重建中启用了δd，并且仅限于鼻部区域。
基线方法：实现并测试了3DDFAv2、SADRNet、PRNet、DECA、EMOCA和HRN等方法，并扩展了这些方法以使用时间先验。
Multiface基准测试：将基准测试分为两类，分别是单图像操作和使用完整序列作为观测。作者的方法在面部区域SSME方面比最佳公开方法提高了54%，在序列预测方面提高了46%。
FaceScape基准测试：在大范围视角和表情变化下，作者的方法在CD方面比以前的回归方法提高了38%。
NoW挑战：作者的方法在单视图和多视图情况下都表现出色，在非计量挑战中，比基线方法提高了4%到13%的性能。
下游任务：通过对头像合成和语音驱动面部动画任务的改进，进一步展示了作者方法的实用性和效果。

本文提出了一种最先进的人脸跟踪流水线，具有高度稳健和准确的2D对齐模块。其性能在各种基准测试和下游任务中得到了充分验证。然而，提出的两阶段流水线并不完全可微，这阻碍了端到端的学习。此外，我们的训练数据仅限于在实验室中捕获的数据。在未来的工作中，我们打算将对齐网络扩展到直接预测深度，从而省略了3D模型拟合步骤。合成数据集可以缓解数据问题。我们相信，我们的跟踪器将通过使用现成的视频数据集生成大规模的面部捕获数据，加速下游任务的研究。我们还相信，我们的新型运动捕获评估基准将聚焦并调整未来的研究工作，以创建更准确的方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。