天天看點

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

作者:極市平台

作者丨Fiction@知乎(已授權)

來源丨https://zhuanlan.zhihu.com/p/644520609

編輯丨極市平台

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

Jiahe Li, Jiawei Zhang, Xiao Bai, Jun Zhou, Lin Gu

本文介紹我們ICCV 2023的工作 Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis .

機關:北京航空航天大學,格裡菲斯大學,RIKEN AIP,東京大學

論文:https://arxiv.org/abs/2307.09323

代碼:https://github.com/Fictionarry/ER-NeRF

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

Abstract

本文提出一種新的基于 condition NeRF 的 talking portrait 合成架構 ER-NeRF,可以在較小的參數量下實作高精度的實時渲染和快速收斂。我們的想法是顯示利用空間區域的不平等貢獻來指導談話肖像模組化。具體而言,為了提高動态頭部重建的準确性,通過使用三個2D哈希編碼器修剪空間區域,我們引入了一種緊湊且富有表現力的基于NeRF的三平面哈希表示。對于語音音頻,我們提出了一個區域注意子產品,通過區域注意力機制生成區域感覺條件特征。現有的方法通常利用基于MLP的編碼器隐式地學習音頻-視訊跨模态關系,而在我們的方法使用注意力機制在音頻特征和空間區域之間建立了顯式連接配接,以捕捉局部運動的先驗。此外,對于身體部分,我們提出了一種直覺且快速的适應性姿态編碼,通過将頭部姿态的複雜變換映射到空間坐标中以優化頭部-軀幹分離問題。大量實驗表明,與以前的方法相比,在talking portrait 合成任務中,我們的方法在高保真度和唇形同步程度上表現更優,并具有逼真的細節和更高的效率。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

圖1. 與以往的方法不同,我們沒有通過基于MLP的編碼器來學習隐含的音頻-視覺關系,而是明确地關注語音音頻和空間區域之間的跨模态互動。區域感覺使ER NeRF能夠呈現更準确的面部運動。

1. Introduction

音頻驅動的 talking portrait 合成是一個重要而具有挑戰性的問題,并有多種潛在應用場景,如數字人、虛拟化身、電影制作和視訊會議。在過去的幾年裡,許多研究人員已經用深度生成模型來處理這項任務。最近,神經輻射場(NeRF)被引入到音頻驅動的說話肖像合成中。它提供了一種通過深度多層感覺器(MLP)學習從音頻特征到相應視覺外觀的直接映射的新方法。此後,一些研究以端到端的方式或通過一些中間表示對音頻信号進行NeRF條件處理,以重建特定的說話肖像。盡管這些基于NeRF的方法在合成品質上取得了巨大成功,但推理速度遠遠不能滿足實時性要求,這嚴重限制了它們的實際應用。

最近,一些關于高效神經表示的工作通過用稀疏特征網格替換MLP網絡的一部分,實作了對NeRF的顯著加速。Instant-NGP 引入用于靜态場景模組化的哈希編碼體素網格,使用緊湊的模型實作了快速和高品質的渲染。RAD NeRF首先将這項技術應用于 talking portrait 合成,并建構了一個具有最先進性能的實時渲染架構。然而,RAD-NeRF需要一個複雜的帶有MLP的網格編碼器來隐式學習區域性的音頻-動作映射,這限制了其收斂速度和重建品質。

本文旨在探索一種更有效的解決方案,以實作高效、高保真的talking portrait 合成。基于之前的研究,我們注意到不同的空間區域對于 talking portrait 的外觀的貢獻并不相等:

(1) 在體渲染中,由于隻有表面區域有助于表示動态頭部,是以大多數其他空間區域是無用的,且頭部的表面結構較為簡單,可以進一步探索如何使用一些高效NeRF技術進行修剪,以降低訓練難度;

(2) 由于不同的面部區域與語音音頻具有不同的關聯,是以不同的空間區域以其獨特的方式與音頻信号固有地相關,并表現出獨特的音頻驅動的局部運動。

受這些觀察結果的啟發,我們明确利用空間區域的不平等貢獻來指導 talking portrait 模組化,并提出了一種新穎的 Efficient Region-aware talking portrait NeRF (ER-NeRF)架構,用于逼真高效的 talking portrait 合成,該架構在具有較小模型尺寸的情況下實作了高品質的渲染、快速收斂和實時推理。

本文的貢獻主要在于:

(1) 我們引入了一種高效的三平面哈希表示來促進動态頭部重建,以緊湊的模型大小實作了高品質的渲染、實時推理和快速收斂。(2)我們提出了一種新穎的區域注意子產品來捕捉音頻條件和空間區域之間的相關性,以進行精确的面部運動模組化。

2. Methods

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場
ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

2.1 Hash Tri-Plane Representation

我們的第一個改進針對在動态頭部表示上。盡管RAD NeRF利用Instant-NGP來表示 talking portrait 并實作了快速推理,但在對音頻驅動的3D動态頭部模組化時,其渲染品質和收斂性受到哈希沖突的阻礙。為了解決這個問題,我們引入了一種三平面哈希表示,該表示通過基于NeRF的三平面分解将3D空間分解為三個正交平面。在因子分解過程中,所有空間區域都被壓縮到2D平面上,并修剪相應的特征網格。是以,散列沖突僅發生在低維子空間中且數量更少。在噪聲較少的情況下,網絡可以更加關注音頻特征的處理,進而能夠重建更準确的頭部結構和更精細的動态運動。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

圖3. 可視化的占用網格。(a)沒有音頻條件的純靜态3D哈希網格。(b,c)3D哈希網格和我們的以音頻為條件的三平面哈希表示。在被要求處理音頻特征并同時學習動态運動後,3D哈希網格的MLP解碼器表現出過載,而我們的表示仍然可以重建精細的表面。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

2.2 Region Attention Module

音頻等動态條件幾乎不會均勻地對整個portrait産生影響。是以,了解這些條件如何影響肖像的不同區域對于生成自然的面部運動至關重要。許多以往的工作在特征層面忽略了這一點,并使用一些昂貴的方法來隐式地學習其中的相關性。通過利用存儲在哈希編碼器中的多分辨率區域資訊,我們引入了一種輕量級區域注意機制來顯式擷取動态特征和不同空間區域之間的關系。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場
ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

圖4. 區域注意力子產品的可視化。即使受到一些不确定細節(如蓬松的頭發)的影響,我們的區域注意子產品也成功地捕獲了動态條件和空間區域之間的關系,而無需顯式的标注。

2.3 Adaptive Pose Encoding

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

圖5. Adaptive Pose Encoding

為了解決頭軀幹分離問題,我們在之前的工作的基礎上進行了改進(RAD-NeRF,GeneFace)。我們沒有直接使用整個圖像或姿勢矩陣作為條件,而是将頭部姿勢的複雜變換映射到具有更清晰位置資訊的幾個關鍵點的坐标,并引導torso-NeRF從中學習隐式軀幹姿勢坐标。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

然後我們将 投影到圖像平面上并得到二維坐标 。這便是最終用于調節 torso NeRF的最終編碼結果。

3. Experiments

3.1 定量實驗

在_自驅動_和_異源音頻驅動_兩個setting下,我們的方法在基于NeRF的方法中同時在渲染品質、唇形同步、面部動作重建、訓練時間、模型尺寸和推理速度上均表現最優。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

3.2 定性實驗

為了對整個肖像(頭部+軀幹)進行直覺的比較,我們在圖6中展示了部分視訊關鍵幀和四個任務的細節。對于基于 NeRF 的方法,我們合成軀幹部分來評估整個肖像。結果表明,ER-NeRF 能夠渲染出更多細節,并具有最高的個性化口型同步精度。雖然 Wav2Lip 和 PC-AVS 在 Sync 方面取得了很高的分數,但它們生成的結果與真實情況有明顯的差距。

對于合成的軀幹部分, AD-NeRF 中的頭部-軀幹分離(黃色箭頭)的問題較為突出,而 RAD-NeRF 的軀幹在某些極端情況下也無法與頭部對齊(紅色箭頭),而ER-NeRF由于Adaptive Pose Encoding 在軀幹合成上表現出更高的魯棒性和品質。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

圖6. 定性結果

為了進一步的評估合成品質,我們使用問卷調查的形式邀請真人進行了user study。實驗結果表明我們的方法能夠合成高真實度的talking portrait視訊。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

同時我們對穩定性進行了測試,在一些轉動角度較大的視角下,我們的方法仍表現出良好的穩定性。

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

3.3 消融實驗

ER-NeRF: 合成高保真Talking Portrait的高效區域感覺神經輻射場

Representation. 我們對三個不同的 representation backbone 的頭部重建品質進行評估。首先是基于純MLP 的網絡,與 AD-NeRF相同。其次,對于基于 grid 的 backbone,我們将我們的 Tri-Hash 與 EG3D中的 pure tri-plane 和 RAD-NeRF 中使用的 Instant-NGP 3D 哈希網格進行比較 。所提出的三哈希表示實作了最佳圖像品質,并顯着改進了唇形同步。

Region Attention Module. 與直接concat相比,我們評估了三個backbone上的區域注意機制。結果顯示了我們的方法對精确運動模組化的巨大影響。值得注意的是,僅僅通過僅将所提出的注意力機制與現有的主幹結合使用,我們便可以在圖像品質和唇形同步方面獲得比目前最先進的方法更好的分數,同時訓練時間減少一半且參數更少,這表明了我們的注意力機制的高效性。

注意力類型. 在表 5 中,我們比較了區域注意力機制的兩種類型的注意力:feature-wise 和 channel-wise。feature-wise 的注意力使用一維注意力向量縮放整個音頻特征,而 channel-wise 則對每個通道重新權重。我們的實驗表明,在口型同步品質方面,channel-wise 優于 feature-wise,這表明所提出的區域注意機制成功捕獲了不同空間區域間的互不相同的獨特影響,并是以顯着提高了口型運動品質。

4. 總結

在本文中,我們提出了一種高校且有效的用于合成高保真 talking portrait 的架構 ER-NeRF,主要由三平面哈希表示和區域注意子產品組成。我們的架構以更高的效率在高保真 talking portrait 合成任務上取得了顯著的性能進步。這也可能為 condition NeRF 的設計提供新技術。

繼續閱讀