天天看點

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

作者:新智元

編輯:LRS

【新智元導讀】想要做出一段能夠「以假亂真的人物說話視訊」的門檻到底低到什麼程度了?僅需一張照片加一段音頻,就能生成一段堪稱真實到可怕的假視訊,以後法庭上視訊證據還有可信度嗎?

在人物說話的過程中,每一個細微的動作和表情都可以表達情感,都能向觀衆傳達出無聲的資訊,也是影響生成結果真實性的關鍵因素。

如果能夠根據特定面容來自動生成一段生動逼真的形象,将徹底改變人類與人工智能系統的互動形式,例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫療保健場景下的治療支援和社會互動等。

最近,微軟亞洲研究院的研究人員抛出了一個重磅炸彈VASA-1架構,利用視覺情感技巧(VAS,visual affective skills),隻需要輸入一張肖像照片+一段語音音頻,即可生成具有精确唇音同步、逼真面部行為和自然頭部運動的超逼真說話面部視訊。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

論文連結:https://arxiv.org/pdf/2404.10667.pdf

項目首頁:https://www.microsoft.com/en-us/research/project/vasa-1/

看完示範後,網友表示「每個人和家人朋友約定一個密碼詞」防止詐騙了,因為AI可以一直監聽手機的麥克風來學習。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

從法律角度來看,「視訊證據在未來的價值将大大降低」。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

但也有網友指出,細看的話,視訊也存在瑕疵,例如牙齒的大小一直在變化;但如果不知道這個視訊是AI生成的話,不知道還能否分辨出來?

在VASA架構下,首款模型VASA-1不僅能夠産生與音頻完美同步的嘴唇動作,還能夠捕捉大量面部細微差别和自然的頭部動作,有助于感覺真實性和生動性。

架構的核心創新點為基于擴散的整體面部動力學和頭部運動生成模型,以及使用視訊來開發出這種富有表現力和解耦的面部潛空間(disentangled face latent space)。

研究人員還使用了一組全新的名額對模型能力進行評估,結果表明該方法在各個次元上都顯著優于之前的方法,可以提供具有逼真面部和頭部動态的高品質視訊,還支援以高達40 FPS的幀速率實時生成512×512視訊,啟動延遲可忽略不計。

可以說,VASA架構為模拟人類對話行為中,使用逼真化身進行實時互動鋪平了道路。

VASA架構

一個好的生成視訊應該具備幾個關鍵點:高保真度、圖像幀的清晰度和真實性、音頻和嘴唇動作之間的精确同步、表情和情感的面部動态,以及自然的頭部姿勢。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

模型在生成過程可以接受一組可選的控制信号來指導生成,包括主眼凝視方向、頭部到相機的距離和情緒偏移等。

整體架構

VASA模型并不是直接生成視訊幀,而是在音頻和其他信号的條件下,在潛空間中生成整體的面部動态和頭部運動。

給定運動潛碼後,VASA使用面部編碼器從輸入圖像中提取的外觀和身份特征作為輸入,然後生成視訊幀。

研究人員首先建構了一個人臉潛空間,并使用現實生活中的人臉視訊對人臉編碼器和解碼器進行訓練;然後再訓練一個簡單的擴散Transformer對運動分布進行模組化,針對測試期間的音頻和其他條件下,生成運動潛碼。

1. 表情和解耦面部潛空間建構(Expressive and Disentangled Face Latent Space Construction)

給定一組未标注的說話人臉視訊,研究人員的目标是建立一個具有高度解耦和表現力的人臉潛空間。

在主體身份改變的情況下,解耦可以對視訊中的人臉和整體面部行為進行高效的生成模組化,還可以實作對輸出的解耦因子控制,相比之下,現有方法要麼缺乏表現力,要麼缺乏解耦。

另一方面,面部外觀和動态運動的表情可以確定解碼器能夠輸出具有豐富面部細節的高品質視訊,潛生成器能夠捕捉細微的面部動态。

為了實作這一點,VASA模型建立在3D輔助人臉再現(3D-aid face reenactment)架構的基礎上,與2D特征圖相比,3D外觀特征體積可以更好地表征3D中的外觀細節,其在模組化3D頭部和面部運動方面也很強大。

具體來說,研究人員将面部圖像分解為規範的3D外觀體積、身份編碼、3D頭部姿勢和面部動态編碼,每個特征都由獨立的編碼器從人臉圖像中進行提取,其中外觀體積需要先通過提取姿勢三維體積,再将剛性和非剛性三維扭曲到規範體積來建構得到。

解碼器将上述潛變量作為輸入,并重建面部圖像。

學習解耦潛空間的核心思想是,通過在視訊中不同圖像之間交換潛變量來建構圖像重建損失,但原版模型中的損失函數無法很好地區分「面部動态」和「頭部姿勢」,也無法識别「身體」和「運動」之間的關聯性。

研究人員額外添加了成對的頭部姿勢和面部動态來傳遞損失,以改善解耦效果。

為了提升身份和運動之間的糾纏,損失函數中引入了面部身份相似性損失。

2. 基于擴散Transformer的整體人臉動态生成(Holistic Facial Dynamics Generation with Diffusion Transformer)

給定建構的人臉潛空間和訓練的編碼器,就可以從現實生活中的人臉視訊中提取人臉動态和頭部運動,并訓練生成模型。

最關鍵的是,研究人員考慮了身份不可知的整體面部動态生成(HFDG),學習到的潛編碼代表所有面部運動,如嘴唇運動、(非嘴唇)表情、眼睛凝視和眨眼,與現有方法中「使用交錯回歸和生成公式對不同因素應用單獨的模型」形成了鮮明的對比。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

此外,之前的方法通常基于有限的身份進行訓練,不能對不同人類的廣泛運動模式進行模組化,特别是在具有表現力的運動潛空間的情況下。

在這項工作中,研究人員利用音頻條件下的HFDG的擴散模型,在來自大量身份的大量談話人臉視訊上進行訓練,并将Transformer架構應用于序列生成任務。

3. Talking Face視訊生成

在推斷時,給定任意的人臉圖像和音頻片段,首先使用訓練的人臉編碼器提取3D外觀體積和身份編碼;然後提取音頻特征,将其分割成相同長度的片段,并使用訓練的擴散Transformer以滑動視窗的方式逐個生成頭部和面部運動序列;最後使用訓練後的解碼器生成最終視訊。

實驗結果

研究人員使用公開的VoxCeleb2資料集,包含大約6000名受試者的談話面部視訊,并重新處理資料集并丢棄「包含多個人物的片段」和低品質的片段。

對于motion latent生成任務,使用embedding尺寸為512、頭編号為8的8層Transformer編碼器作為擴散網絡。

模型在VoxCeleb2和收集的另一個高分辨率談話視訊資料集上進行訓練,該資料集包含約3500個受試者。

定性評估

可視化結果

通過視覺檢查,我們的方法可以生成具有生動面部情緒的高品質視訊幀。此外,它可以産生類似人類的對話行為,包括在演講和沉思過程中眼睛凝視的偶爾變化,以及眨眼的自然和可變節奏,以及其他細微差别。我們強烈建議讀者線上檢視我們的視訊結果,以充分了解我們方法的功能和輸出品質。

生成可控性

在不同控制信号下生成的結果,包括主眼凝視、頭部距離和情緒偏移,生成模型可以很好地解釋這些信号,并産生與這些特定參數密切相關的人臉結果。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

解耦face latents

當将相同的運動潛在序列應用于不同的受試者時,方法有效地保持了不同的面部運動和獨特的面部特征,表明了該方法在解耦身份和運動方面的有效性。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

下圖進一步說明了頭部姿勢和面部動态之間的有效解耦,通過保持一個方面不變并改變另一個方面,得到的圖像忠實地反映了預期的頭部和面部運動,而不會受到幹擾,展示了處理訓練分布之外的照片和音頻輸入的能力。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

模型還可以處理藝術照片、歌唱音頻片段(前兩行)和非英語演講(最後一行),并且這些資料變體不存在于訓練資料集中。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

定量評估

下表給出了VoxCeleb2和OneMin-32基準測試的結果。

微軟詐騙界王牌架構,真到可怕!一張照片+音頻即可生成數字人

在這兩個基準測試中,該方法在所有評估名額上都取得了所有方法中最好的結果。

在音頻嘴唇同步分數(SC和SD)方面,該方法遠遠優于其他方法,比真實視訊産生更好的分數,是由于音頻CFG的影響。

從CAPP分數上反映的結果來看,模型生成的姿勢與音頻的比對效果更一緻,尤其是在OneMin-32基準上。

根據∆P,頭部運動也表現出最高的強度,但仍然與真實視訊的強度仍有差距;并且FVD得分明顯低于其他模型,表明該結果具有更高的視訊品質和真實性。

參考資料:

https://www.microsoft.com/en-us/research/project/vasa-1/

繼續閱讀