炸裂！準确到每個像素！CVPR'24最新3D面部追蹤效果簡直了！

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

這篇文章介紹了一種先進的人臉跟蹤技術，包括一個高度穩健和準确的2D對齊子產品。該技術在多個基準測試和下遊任務中進行了驗證。文章提出的方法利用兩階段流水線進行人臉跟蹤，首先預測人臉模型的密集2D對齊，然後将參數化的3D模型拟合到該對齊結果上。實驗表明，該方法在面部跟蹤精度和3D重建準确性方面表現優異，并且能夠在不同的下遊任務中提高性能，如頭像合成和語音驅動的三維面部動畫。文章指出了該方法的局限性，如流水線不完全可微和資料受限，提出了未來的工作方向，包括擴充對齊網絡以直接預測深度，以及利用合成資料集來緩解資料問題。

下面一起來閱讀一下這項工作~

論文題目：3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow

作者：Felix Taubner, Prashant Raina等

作者機構：LG Electronics

論文連結：https://arxiv.org/pdf/2404.09819.pdf

在處理3D面部資料時，提高保真度并避免令人不适的山谷效應嚴重依賴于準确的3D面部表現捕捉。由于這種方法成本高昂，并且由于2D視訊的廣泛可用性，最近的方法已經專注于如何執行單眼3D面部跟蹤。然而，這些方法通常在捕捉精确的面部動作方面表現不佳，原因在于它們的網絡架構、訓練和評估過程存在限制。為了解決這些挑戰，我們提出了一種新穎的人臉跟蹤器FlowFace，它引入了一種創新的2D對齊網絡，用于稠密的逐頂點對齊。與之前的工作不同，FlowFace是在高品質的3D掃描注釋上進行訓練的，而不是弱監督或合成資料。我們的3D模型拟合子產品可以從一個或多個觀察中聯合拟合一個3D面部模型，內建現有的中性形狀先驗，以增強身份和表情的解耦合，以及逐頂點變形，以進行詳細的面部特征重建。此外，我們提出了一種新穎的度量标準和基準，用于評估跟蹤精度。我們的方法在自定義和公開可用的基準上表現出優越的性能。我們通過從2D視訊生成高品質的3D資料來進一步驗證我們的跟蹤器的有效性，這導緻在下遊任務上性能提升。

圖5. 我們在Multiface基準測試的兩個序列（頂部和底部3行）上的定性結果。暖色表示高誤差，冷色表示低誤差。DECA 、HRN 和 MPT 在顴骨和額頭區域的運動中遇到困難，這在SSME誤差圖中可見（右列）。盡管僅使用2D對齊作為監督，我們的方法在3D重建（CD）方面表現更好（中列）。

從我們的Multiface 子集中每個受試者的一個序列中提取的片段。我們的基準包含了來自不同受試者和視角方向的各種表情。

來自FaceScape （左側四列）和Stirling（右側兩列）資料集的FLAME注冊示例。頂部一行包含了原始圖像，中間一行包含了原始掃描資料，底部一行包含了拟合的FLAME模型網格。對于Stirling資料集，我們使用可用的彩色3D掃描資料生成了合成視圖。

2D對齊網絡具有新穎的架構，具有視覺變換器骨幹和疊代的、循環的細化塊。
與使用弱監督或合成資料的先前方法相反，對齊網絡使用來自3D掃描的高品質注釋進行訓練。
對齊網絡預測密集的、逐頂點的對齊，而不是關鍵點，這使得能夠重建更精細的細節。
內建了一個現成的中性形狀預測模型，以改善身份和表情的解耦合。

本文介紹了一種用于單眼3D面部跟蹤的方法。其基本原理包括兩個主要階段：

密集的2D面部對齊網絡：

該網絡負責預測面部模型的每個頂點在圖像空間中的位置。對于每個頂點，網絡會輸出一個位置的期望值和不确定性，以及一個UV到圖像對應的映射和不确定性。網絡結構包括圖像特征編碼器、UV位置編碼子產品和疊代的光流子產品。損失函數采用了高斯負對數似然損失函數，同時考慮了頂點位置的預測和UV到圖像的映射。

3D模型拟合：

在這個階段，通過優化一個能量函數來拟合參數化的3D模型到預測的2D對齊觀測中。能量函數包括對2D對齊的鼓勵項、FLAME模型的正則項、運動平滑項、3D中性幾何先驗項和變形限制項。通過優化這個能量函數，可以得到最适合觀測資料的3D模型和相機參數。

該方法的優點在于使用了密集的2D面部對齊，而不是傳統的稀疏關鍵點，同時結合了3D模型拟合，可以實作準确和魯棒的3D面部重建和運動捕捉。

訓練資料：使用了包括FaceScape、Stirling和FaMoS在内的多個資料集，其中包括了FLAME模型的拟合和關鍵點标注。
2D對齊網絡：采用Segformer-b5作為主幹網絡，Dimg = 512，Duv = 64，Niter = 3。使用了AdamW優化器和圖像增強技術進行訓練。
3D模型拟合：采用AdamW優化器和自動學習率排程器進行模型優化，直到收斂。在多視角重建中啟用了δd，并且僅限于鼻部區域。
基線方法：實作并測試了3DDFAv2、SADRNet、PRNet、DECA、EMOCA和HRN等方法，并擴充了這些方法以使用時間先驗。
Multiface基準測試：将基準測試分為兩類，分别是單圖像操作和使用完整序列作為觀測。作者的方法在面部區域SSME方面比最佳公開方法提高了54%，在序列預測方面提高了46%。
FaceScape基準測試：在大範圍視角和表情變化下，作者的方法在CD方面比以前的回歸方法提高了38%。
NoW挑戰：作者的方法在單視圖和多視圖情況下都表現出色，在非計量挑戰中，比基線方法提高了4%到13%的性能。
下遊任務：通過對頭像合成和語音驅動面部動畫任務的改進，進一步展示了作者方法的實用性和效果。

本文提出了一種最先進的人臉跟蹤流水線，具有高度穩健和準确的2D對齊子產品。其性能在各種基準測試和下遊任務中得到了充分驗證。然而，提出的兩階段流水線并不完全可微，這阻礙了端到端的學習。此外，我們的訓練資料僅限于在實驗室中捕獲的資料。在未來的工作中，我們打算将對齊網絡擴充到直接預測深度，進而省略了3D模型拟合步驟。合成資料集可以緩解資料問題。我們相信，我們的跟蹤器将通過使用現成的視訊資料集生成大規模的面部捕獲資料，加速下遊任務的研究。我們還相信，我們的新型運動捕獲評估基準将聚焦并調整未來的研究工作，以建立更準确的方法。

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。