天天看點

美圖影像實驗室10000 點人臉關鍵點技術全解讀

  日前,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實作 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中建構玩家人臉的 3D 遊戲角色并且驅動,也可以應用于虛拟試妝試戴和醫療美容領域等。本文為美圖影像實驗室 MTlab 基于該技術為雷鋒網 AI 科技評論提供的獨家解讀。正文如下:

  簡介

  在計算機視覺領域,人臉關鍵點定位在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識别以及與多媒體相關的互動式圖像視訊編輯任務。目前行業内常用的是 2D 人臉關鍵點技術,然而,2D 人臉點定位技術由于無法擷取深度資訊,不能分析使用者的立體特征,比如蘋果肌,法令紋等更加細緻的使用者資訊,也無法分析出使用者目前的姿态和表情。為了能夠給使用者的自拍添加動畫效果,如面具、眼鏡、3D 帽子等物品,并且提供更加智能的 AI 美顔美型效果,需要一套特殊的感覺技術,實時跟蹤每個使用者的微笑、眨眼等表面幾何特征。是以,美圖影像實驗室 MTlab 研發人員研發了 10000 點人臉關鍵點技術,将面部圖像提升到三維立體空間,将使用者的姿态、臉型以及表情分解開來,實時跟蹤使用者目前的姿态、表情、五官特征改變後的面部形态,調整後的圖像更加自然美觀。

  基于 3DMM 的人臉關鍵點定位方法

  1. 三維形變模型 (3DMM)

  1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉資料庫的基礎上,以人臉形狀和人臉紋理統計為限制,同時考慮了人臉的姿态和光照因素的影響,生成的人臉三維模型精度較高。

  3DMM

  如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進行線性組合。也就是說,可以通過改變系數,在已有人臉基礎上生成不同人臉。假設建立 3D 變形的人臉模型由 m 個人臉模型組成,其中每一個人臉模型都包含相應的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時,就可以采用以下方式:

  其中表示平均臉部形狀模型,表示 shape 的 PCA 部分,表示對應臉型系數。

  Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達問題,但其在人臉表情表達上依然存在明顯不足。2014 年時,FacewareHouse 這篇論文提出并公開了一個人臉表情資料庫,使得 3DMM 有了更強的表現力,人臉模型的線性表示可以擴充為:

  在原來的臉型資料基礎上,增加了表情,表示對應的表情系數,系數讓實時表情 Tracking 成為了可能。

  2. 美圖 MT3DMM 模型

  為了能夠更加精細地刻畫不同人臉的 3D 形狀,并且适用于更廣泛的人種,MTlab 的研發團隊采用先進的 3D 掃描裝置采集了 1200 個不同人物、每人 18 種表情的 3D 人臉資料,其中男女各半,多為中國人,年齡分布在 12~60 歲,模型總數超過 20000 個,基于這些資料,建立了基于深度神經網絡的 MT3DMM 模型。相比于目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,并且符合亞洲人臉分布的特點,是目前業界精度最高的 3D 人臉模型之一。鄭州最好的婦科醫院:http://mobile.zzchxb110.com/

  3DMM 模型,代表了一個平均臉,也同時包含了與該平均臉的偏差資訊。例如,一個胖臉在一個瘦臉模型基礎上,通過調整五官比例可以得到胖臉模型。利用這種相關性,計算機隻需要利用使用者的臉與平均人臉的偏差資訊,就能夠生成專屬于使用者的 3D 模型。不僅如此,這些偏差還包括大緻的年齡、性别和臉部長度等參數。但是,這樣也存在一個問題,世界上的人臉千變萬化,要将所有人臉與平均人臉的偏差都存儲下來,3DMM 模型需要內建大量面部的資訊,然而目前的開源模型在模仿不同年齡和種族人臉方面的能力十分有限。

  如下圖 BFM 的人臉資料基本都是外國人臉,跟亞洲人臉的資料分布存在差異;Facewarehouse 的資料主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問題;SFM 開源的資料隻包含了 6 種表情,并且模型的精度較低,無法滿足我們的需求;LSFM 資料包含了較多的人臉資料,但是不包含表情,無法用于使用者表情跟蹤。

轉載于:https://blog.51cto.com/14278102/2406799