开源！北航WSDF框架！解决3D人脸重建中过度严格的标签要求问题

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

这篇文章介绍了一种名为WSDF的方法，用于利用弱监督训练学习可控的3D人脸建模。文章提出了一种名为Neutral Bank的模块，利用身份标签学习伪基准，通过辅助损失函数强化身份一致性和信息保留。此外，文章还设计了一种无标签的二阶损失函数，通过对潜在表达空间施加正则化来进一步增强解耦效果。实验结果表明，WSDF方法在学习可控3D人脸模型方面是有效的，并且验证了从多个数据集中学习3D人脸模型的潜力。

下面一起来阅读一下这项工作~

论文题目：3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior

作者：Guohao Li, Hongyu Yang等

作者机构：School of Computer Science and Engineering, Beihang University 等

论文链接：https://arxiv.org/pdf/2404.16536

代码链接：https://github.com/liguohao96/WSDF

在一次性设置下进行面部表情转移在研究界日益受到关注，重点是对表情进行精确控制。现有技术展示了在感知表情方面的引人注目的结果，但它们在极端头部姿势下缺乏鲁棒性。它们也难以准确重建背景细节，从而影响了逼真性。在本文中，我们提出了一种新颖的变形技术，它将2D和3D方法的优势结合起来，实现了鲁棒的面部再现。我们在特征空间中生成了密集的3D面部流场，以根据目标表情对输入图像进行变形，而无需深度信息。这使得能够明确地对重现不对齐的源和目标面部进行3D几何控制。我们通过提出的“循环变形损失”来规范3D流预测网络的运动估计能力，通过将变形的3D特征转换回2D RGB空间。为了确保生成具有自然背景的更细致的面部区域，我们的框架首先只渲染面部前景区域，并学习对由于源脸部平移而需要填充的空白区域进行修补，从而重建详细的背景而没有任何不必要的像素运动。广泛的评估表明，我们的方法在渲染无瑕疵的面部图像方面优于最先进的技术。

在FaceScape上进行定性比较。放大以获得更好的视图。

在FaceScape上实现的插值结果。

中和FaceScape上看不见的扫描。每一行表示一个人。

在FaceScape数据集上的Neutral Bank可视化

下游应用程序的示例。

中性库模块：我们引入了一个中性库模块，配合一个专用的损失函数。该模块在防止身份一致性退化方面发挥了至关重要的作用，从而促进了身份因素的解耦。
无标签的二阶损失：我们提出了一个无标签的二阶损失，旨在通过消除表情空间内的干扰信息来增强解耦。这通过对变形的正则化来实现，从而实现了更有效的解耦。
一种新颖的3DMM：我们提出了一种新颖的3DMM，即WSDF，它是从组合数据集中学习的。实验验证表明，它的泛化能力显著提高，标志着3D面部形状建模领域的进步。

本文的基本原理是利用弱监督学习方法设计生成式3D人脸模型，可以独立控制身份和表情因素。传统的3D人脸建模方法通常需要使用具体的标签来有效地解开这些因素之间的关系，特别是在整合多个3D人脸数据集以提高模型泛化能力时面临挑战。为了解决这个问题，本文引入了一个弱监督解耦框架（WSDF），以便在不需要过于严格的标签要求的情况下训练可控制的3D人脸模型。

基于变分自动编码器（VAEs）的思想，该模型通过一个具有专门身份一致性先验的双分支编码器实现身份和表情解耦。然后通过一个基于张量的组合机制忠实地重新组合这些因素。值得注意的是，引入了Neutral Bank模块，只使用身份标签就可以精确获取特定主体信息，从而避免因监督不足而导致的退化。此外，该框架还结合了一个无标签的二阶损失函数，用于调节变形空间并消除多余信息，从而增强解耦效果。

总的来说，本文提出的WSDF模型采用了一种新颖的思路，通过弱监督学习实现了可控制的3D人脸模型，同时避免了对表情标签的严格要求。

本文的实验内容主要包括以下几个方面：

数据集选择与预处理：

使用了三个公开可用的数据集：CoMA、FaceScape 和 D3DFACS。
对数据进行预处理，确保所有扫描都注册到相同的拓扑结构中，并进行了刚性姿态估计和质量筛选。

训练设置：

使用 AdamW 优化器进行网络训练，设置了通用的权重衰减和批量大小。
训练了 100 个 epochs，没有使用数据增强。

评估指标：

使用了平均顶点距离（AVD）和一些其他指标，如重建误差、表征脸部特征的离散度等，进行了模型性能评估。

定量比较：

将作者提出的方法与其他最新的脸部解耦方法进行了比较，包括 DRL、DI-MeshEnc、IB-VAE、FaceTuneGAN 和 FED。
在 CoMA 和 FaceScape 数据集上进行了对比实验，分析了重建、解耦和中性化等方面的性能。

训练数据的合并：

评估了在多个数据集上联合训练模型的效果，并与单独训练模型进行了对比。

定性评估：

展示了模型的重建、插值和中性化效果，并与其他方法进行了比较。
使用了 t-SNE 分析等方法来定性评估模型学习到的表征空间。

应用案例：

展示了学习到的生成式 3D 面部模型在面部重建、纹理转移和表情转移等下游任务中的应用效果。

本文提出了一种弱监督训练的可控3D人脸建模方法。中性化银行模块利用身份标签学习伪基准，通过辅助损失函数强化身份一致性和信息保留。此外，设计了一种无标签的二阶损失函数，通过对潜在表达空间施加正则化来进一步增强解耦效果。实验结果表明，所提出的WSDF方法在学习可控3D人脸模型方面是有效的。本研究还验证了从多个数据集中学习3D人脸模型的潜力。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

开源！北航WSDF框架！解决3D人脸重建中过度严格的标签要求问题

继续阅读

闹大了！麦当劳过期食材换标签，炸油品质超标，评论区沦陷

麦当劳的黑幕：过期食材换标签续命，食品安全何在？

揭秘！麦当劳食材“变脸”事件：过期食材竟然换标签续命！

唐朝宗室制度有多严格？不管是谁，出了五服，就自谋生路

麦当劳回应门店给过期食材换标签：正调查核实，绝不姑息

抖音不能发布时政财经内容了？官方回应：消息不实，商业化流程将更严格【附短视频行业市场发展前景预测】

《猩球崛起:新世界》观后感:一部被科幻标签耽误了的良心巨作！

纯 CSS 实现标签自动显示超出数量

“给过期食材换标签续命”，麦当劳致歉：调查核实，绝不姑息

权力失控？警车高速违法截停私家车后续，调查组进驻，严格追责。

女性的最高级标签：松弛感

你会看食品标签吗？快戳进来学习！

为什么内心真正强大的人总是会被大部分人贴上幼稚，天真等标签?

“交通执法：人性化措施下的严格执行，如何平衡安全与便利？”

八小时工作制是法律规定的，法律不能让步于资本，必须严格实行。

习语安声 | 严格落实企业安全生产主体责任