天天看点

美图影像实验室10000 点人脸关键点技术全解读

  日前,美图影像实验室(MTlab, Meitu Imaging & Vision Lab)推出「10000 点 3D 人脸关键点技术」——利用深度学习技术实现 10000 点的人脸五官精细定位,该项技术可以在 VR 游戏中构建玩家人脸的 3D 游戏角色并且驱动,也可以应用于虚拟试妆试戴和医疗美容领域等。本文为美图影像实验室 MTlab 基于该技术为雷锋网 AI 科技评论提供的独家解读。正文如下:

  简介

  在计算机视觉领域,人脸关键点定位在视觉和图形中具有广泛的应用,包括面部跟踪、情感识别以及与多媒体相关的交互式图像视频编辑任务。目前行业内常用的是 2D 人脸关键点技术,然而,2D 人脸点定位技术由于无法获取深度信息,不能分析用户的立体特征,比如苹果肌,法令纹等更加细致的用户信息,也无法分析出用户当前的姿态和表情。为了能够给用户的自拍添加动画效果,如面具、眼镜、3D 帽子等物品,并且提供更加智能的 AI 美颜美型效果,需要一套特殊的感知技术,实时跟踪每个用户的微笑、眨眼等表面几何特征。因此,美图影像实验室 MTlab 研发人员研发了 10000 点人脸关键点技术,将面部图像提升到三维立体空间,将用户的姿态、脸型以及表情分解开来,实时跟踪用户当前的姿态、表情、五官特征改变后的面部形态,调整后的图像更加自然美观。

  基于 3DMM 的人脸关键点定位方法

  1. 三维形变模型 (3DMM)

  1999 年,瑞士巴塞尔大学的科学家 Blanz 和 Vetter 提出了一种十分具有创新性的方法——三维形变模型 (3DMM)。三维形变模型建立在三维人脸数据库的基础上,以人脸形状和人脸纹理统计为约束,同时考虑了人脸的姿态和光照因素的影响,生成的人脸三维模型精度较高。

  3DMM

  如上图所示 3DMM 的主要思想是:一张人脸模型可以由已有的脸部模型进行线性组合。也就是说,可以通过改变系数,在已有人脸基础上生成不同人脸。假设建立 3D 变形的人脸模型由 m 个人脸模型组成,其中每一个人脸模型都包含相应的脸型和纹理两种向量,这样在表示新的 3D 人脸模型时,就可以采用以下方式:

  其中表示平均脸部形状模型,表示 shape 的 PCA 部分,表示对应脸型系数。

  Blanz 和 Vetter 提出的 3DMM 虽然解决了人脸变形模型的表达问题,但其在人脸表情表达上依然存在明显不足。2014 年时,FacewareHouse 这篇论文提出并公开了一个人脸表情数据库,使得 3DMM 有了更强的表现力,人脸模型的线性表示可以扩充为:

  在原来的脸型数据基础上,增加了表情,表示对应的表情系数,系数让实时表情 Tracking 成为了可能。

  2. 美图 MT3DMM 模型

  为了能够更加精细地刻画不同人脸的 3D 形状,并且适用于更广泛的人种,MTlab 的研发团队采用先进的 3D 扫描设备采集了 1200 个不同人物、每人 18 种表情的 3D 人脸数据,其中男女各半,多为中国人,年龄分布在 12~60 岁,模型总数超过 20000 个,基于这些数据,建立了基于深度神经网络的 MT3DMM 模型。相比于目前主流的 3DMM 模型,MT3DMM 具有表情丰富,模型精度高,并且符合亚洲人脸分布的特点,是目前业界精度最高的 3D 人脸模型之一。郑州最好的妇科医院:http://mobile.zzchxb110.com/

  3DMM 模型,代表了一个平均脸,也同时包含了与该平均脸的偏差信息。例如,一个胖脸在一个瘦脸模型基础上,通过调整五官比例可以得到胖脸模型。利用这种相关性,计算机只需要利用用户的脸与平均人脸的偏差信息,就能够生成专属于用户的 3D 模型。不仅如此,这些偏差还包括大致的年龄、性别和脸部长度等参数。但是,这样也存在一个问题,世界上的人脸千变万化,要将所有人脸与平均人脸的偏差都存储下来,3DMM 模型需要集成大量面部的信息,然而目前的开源模型在模仿不同年龄和种族人脸方面的能力十分有限。

  如下图 BFM 的人脸数据基本都是外国人脸,跟亚洲人脸的数据分布存在差异;Facewarehouse 的数据主要是亚洲人脸,但是用 Kinect 扫描的模型则存在精度较低的问题;SFM 开源的数据只包含了 6 种表情,并且模型的精度较低,无法满足我们的需求;LSFM 数据包含了较多的人脸数据,但是不包含表情,无法用于用户表情跟踪。

转载于:https://blog.51cto.com/14278102/2406799