編輯:編輯部
【新智元導讀】誰能想到,某天和你聊天的那個人竟是一個AI。來自TUM等研究人員提出了一種全新算法NPGA,能夠生成高保真3D頭像,表情逼真到讓你懷疑自己的眼睛。
真正的恐怖谷效應是什麼?
快看,下面這個女生做出了各種生動豐富的表情,擠眼,挑眉,嘟嘴....
再來看這個男孩,不停地變化嘴型,再加上細微的眼神動作,絲毫看不出來和我們有何差別。
然而,誰能想到,他們竟不是真人!
網友紛紛稱其為AGI,簡直逼真到可怕。
如此厲害的3D頭像生成,完全不輸小紮此前帶着Quest 3 Pro做客「元宇宙」播客的逼真數字化身。
那麼,這項研究竟出自哪位民間高手?
最近,來自德國慕尼黑工業大學、倫敦大學學院等研究團隊提出了全新算法——NPGA,可生成高品質3D頭像。
論文位址:https://arxiv.org/pdf/2405.19331
這是一種基于資料驅動的方法,從多視角的視訊中建立出高保真、可控的虛拟化身。
傳統上,往往會用網格3DMM去生成渲染的頭像,但效果一般。
而NPGA的創新在于,采用了高斯點雲的方式,即通過無數個點組成3D人像形狀,讓渲染更加高效、逼真。
另外,研究的另一個創新在于,利用了神經網絡模型——「神經參數化頭模型」(NPHM)來捕捉人臉細微表情的變化,由此3D數字化身可以更真實模拟人類表情。
最後,為了增強數字化身的表現力,研究人員還對潛在特征和預測動态提出了「拉普拉斯項」(Laplacian terms)。
實驗評估結果顯示,NPGA比起之前SOTA模型,在自我重制任務中,大約有2.6PSNR提升。
有人驚呼,這簡直離詐騙又近了一步。
此時的網友還不忘調侃,谷歌最近放出的一個不可思議的視訊。
看這奇怪的畫風,再加上虛拟化身不穩定性,簡直無法和NPGA競争。
這是谷歌團隊新提出的ChatDirector算法,按谷歌宣傳的話稱,3D虛拟頭像可以讓線上會議更具「沉浸感」
NPGA:神經參數高斯化身
這項技術可以應用在很多場景,比如電影、遊戲、AR/VR遠端會議,以及小紮心心念念的元宇宙。
雖然視訊的效果看起來如此逼真,但其實,從現實世界捕獲圖像并重建3D頭像是一個極具挑戰性的課題。既需要計算機視覺(CV)準确的識别功能,也需要計算機圖形學(CG)的高保真和實時渲染性能。
近年來這兩項技術的交叉,讓虛拟世界的3D化身越來越逼真。然而,有一個核心問題還沒被解決——如何實作控制性。
谷歌ChatDirector的視訊之是以十分奇怪,主要原因不在畫面渲染,而在面部動作和表情的控制性差,說話時嘴動了但其他部位沒有動,有「皮笑肉不笑」的感覺。
Reddit評論區有網友發問,「我什麼時候能看到這個模型的開源版本,這樣隻需要幾張照片就能生成類似的3D化身了?」
很遺憾,目前的技術應該還做不到通過幾張圖檔就能進行3D重建。
團隊使用的訓練集NeRSemble是一個視訊資料集,用16個機位拍攝了220多個人體頭部的4700多個高分辨率、高幀率的多視圖視訊,包含了各種豐富頭部運動、情緒、表情和口語。
這個資料集同樣由NPGA的作者團隊發表于2023年,并被SIGGRAPH 2023和ACM TOG接收。
論文位址:https://tobias-kirschstein.github.io/nersemble/
溫馨提示,想點進去看示例視訊的話可能需要比較強大的心理素質,裡面收錄的各種誇張表情可以稱之為人類抽象行為大賞。
去年剛發表資料集時,重建出來的動作和表情還比較僵硬,也沒有豐富的面部細節。
短短一年時間就做到了如此逼真的效果,源于團隊在方法上做出的改進。
方法概述
a) 以MonoNPHM模型為基礎,在NeRSemble資料集上使用COLMAP計算的點雲追蹤MonoNPHM,進而實作幾何精确的模型追蹤。
b) 提出循環一緻性目标來反轉MonoNPHM的後向變形場,由此産生的前向變形場可以直接相容基于光栅化的渲染。
c) NPGA由規範高斯點雲和MLP組成,包含蒸餾過的先驗網絡F進行前向變形,以及網絡G學習細粒度的動态細節。
d) 通過為每個基元(primitive)附加潛在特征,将變形場的輸入提升到一個更高維的空間,進而可以更準确地描述每個基元的變形行為。
具體算法細節
之前的頭部重建工作大多會使用3D可形變模型(3D Morphable Model),使用主成分分析(PCA)學習人體幾何圖形的表示,将面部識别和表情變化的參數空間分開。
盡管3DMM的參數空間足夠緊湊,但論文作者認為,其底層的線性本質限制了表達空間能夠實作的保真度。
論文同時表示,底層表達空間對于虛拟人的品質有至關重要的作用,不僅影響可控性,而且決定細節清晰度的上限。如果底層的表達不充分,很有可能在優化模型時導緻過拟合。
是以,團隊使用了3DMM的改進版——NPHM(Neural Parametric Head Models,神經參數化頭部模型),從多視角的圖像序列中追蹤并提取身份識别的隐向量z_id和表情代碼z_exp。
之後,就可以用一個後向變形場B,将姿勢空間中的點x_p轉換為規範空間中的坐标x_c:
比較遺憾的是,這項研究隻專注于重建頭部,屏蔽了資料集中的軀幹部分,因為沒有包含在NPHM提取出的z_exp的表達空間内。
基于3DGS中的為每個基元定義的場景表示,作者額外添加了高斯特征
,雖然它本身是一個靜态特征,但可以為每個基元的動态行為提供語義資訊,起到了一種類似于位置編碼的作用。
進行參數化表達後,論文提出的用于模組化面部表情的動态子產品D由2個多層感覺器(MLP)組成:
- 基于粗略先驗的網絡F
- 超越先驗知識、負責模組化剩餘細節的網絡G
其中,模型F的訓練和使用是這篇文章的核心創新之一。首先讓F在NeRSemble資料集中20個人的圖像序列上進行訓練,之後會将這個網絡運用在所有虛拟化身的重建中。
F的先驗知識,則通過「循環一緻性蒸餾」的方法,從後向變形場B中提取(實質上是B的逆元).
之後使用動态模型D,就可以得到重建的姿勢空間中的高斯點雲表示A_p:
基于A_p完成螢幕空間的渲染後,團隊還提出使用一個CNN網絡提升潛在圖像的細節表達,取代了用超分辨率處理。之後的消融實驗也證明了CNN對性能提升的有效性。
除了算法和架構的設計,團隊也在優化政策上做了兩處改進。
其一是對規範空間A_c與動态模型D進行基于KNN圖算法的拉普拉斯平滑。
其二是自适應密度控制(Adaptive Density Control),這是3DGS成功的核心因素。使用啟發式的方法,在靜态場景下,對可能備援的高斯點雲密度進行剪枝處理。
實驗評估
研究人員通過自我重制(Self-Reenactment)任務來評估NPGA算法的保真度。
自我重制會更準确地描繪出看不見的表情,并在頭發區域等相對靜态區域中,包含更清晰的細節。
有趣的是,GHA_NPHM的性能比GHA稍差,這表明僅使用MonoNPHM表達代碼,并不能立即提升性能。
相反,研究人員假設如果沒有NPHM的運動作為初始化,NPHM的潛在表達分布可能會,提供比BFM的線性混合形狀更複雜的訓練信号。
如下是,不同方法對保留序列的定性比較。
這些方法的定量結果如下。
再來看,在交叉重制(cross-reenactment)任務中,全新算法的表現又如何?
交叉重制是指,将另一個人的表情轉移到虛拟化身上。
如下圖所示,所有的方法都成功将身份和表達資訊分裂出來,進而實作了有效的交叉重制。
不過,NPGA的化身保留了更多驅動表情的大部分細節。
為了證明算法的現實世界适用性,圖6顯示了,研究人員利用MonoNPHM的單目RGB,來追蹤高保真化身動畫。
消融研究
在最後的消融實驗中,為了驗證NPGA的幾個重要組成部分,研究人員通過使用三個受試者進行了消融實驗。消融的定量和定性結果分别見表2和圖5。
如果不利用全高斯特征(Vanilla),3D頭像就無法呈現出非常精細的表情,包括眼睛和下齒等複雜區域。
不過,在添加全高斯特征(p.G.F.)後,重建效果明顯更清晰,但在極端表情下容易産生僞影。
當研究人員添加了拉普拉斯正則化和螢幕空間CNN,最終解決這一僞影問題。
此外,實驗還證明了,預設的點雲密集化政策,會抑制細節的重建,是以使用自适應密度控制(ADC)的政策非常必要。
下表說明了,使用正則化政策可以顯著縮小訓練序列(NVS)和測試序列(自我重制任務)之間的泛化差距。
局限性
研究人員表示,NPGA建立的虛拟化身的可控性、重建品質,從根本上講,會受到底層3DMM表達空間的限制。
是以,包括頸部、軀幹、舌頭、眼珠旋轉這些區域,無法用NPHM的表情代碼來完全解釋。
由此,算法無法可靠地進行動畫處理,甚至可能因為過拟合而帶來僞影。
目前可能的解決方案是,将底層3DMM擴充,提供對人類狀态更詳細的描述。
此外,NPGA作為一種資料驅動的頭像建立方法,在一定程度上受限于可用的資料。