夢晨發自凹非寺

量子位 | 公衆号 QbitAI

AI僞造真人視訊，門檻再次降低。

微軟釋出一張圖生成數字人技術VASA-1，網友看過直呼“炸裂級效果”，比“AI劉強東還真”。

話不多說，直接上一分鐘示範視訊：

做到以假亂真效果，不用針對特定人物訓練，隻要上傳一張人臉圖檔、一段音頻，哪怕不是真人也行。

比如可以讓蒙娜麗莎唱Rap，模仿安妮海瑟薇即興吐槽狗仔隊名場面。

或者讓素描人像念華強台詞。

在項目首頁還有更多1分鐘視訊，以及更更多15秒視訊可看。

不同性别、年齡、種族的數字人，用着不同的口音在說話。

根據團隊在論文中的描述，VASA-1擁有如下特點：

唇形與語音的精準同步

這是最基本的，VASA-1在定量評估中也做到了頂尖水準。

豐富而自然的面部表情

不光做到讓照片“開口說話”，眉毛、眼神、微表情等也跟着協調運動，避免顯得呆闆。

人性化的頭部動作

說話時适當的點頭、搖頭、歪頭等動作，能讓人物看起來更加鮮活、更有說服力。

總得來說，仔細看的話眼睛還有一些破綻，但已經被網友評為“迄今為止最佳示範”。

然而更恐怖的是，整個系統推理速度還是實時級的。

生成512x512分辨率的視訊，使用一塊英偉達RTX4090顯示卡就能跑到40fps。

那麼，VASA-1是如何做到這些的呢?

3大關鍵技術，Sora同款思路

一句話概括：

不是直接生成視訊幀，而是在潛空間中生成動作編碼，再還原成視訊。

是不是和Sora的思路很像了？

其實VASA-1的模型架構選擇Diffusion Transformer，也與Sora核心元件一緻。

據論文描述，背後還有3大關鍵技術:

人臉潛編碼學習，這部分是高度解耦的。

團隊從大量個真實的說話視訊中，學習到一個理想的人臉特征空間。

把身份、外觀、表情、姿态等因素在隐空間裡剝離開。這樣一來，同一個動作就能驅動不同的臉，換成誰都很自然。

頭部運動生成模型，這部分又是高度統一的。

不同于之前的方法分别模組化嘴唇、眼神、眉毛、頭部姿态等局部動作，VASA-1把所有面部動态統一編碼，用Diffution Transfromer模型，也就是SORA同款核心元件，來模組化其機率分布。

這樣既能生成更協調自然的整體動作，又能借助transformer強大的時序模組化能力，學習長時依賴。

比如給定一組原始序列（下圖第一列），最終可以做到：

用原始頭部姿态，改變面部表情（第二列）
用原始面部表情，改變頭部姿态（第三列）
用原始面部表情，生成全新的頭部姿态（第四列）

最後是高效率推理。

為了實作秒實時合成，團隊對擴散模型的推理過程進行了大量優化。

此外，VASA-1還允許使用者輸入一些可選的控制信号，比如人物的視線方向、情緒基調等，進一步提升了可控性。

AI造假成本越來越低了

被VASA-1效果震驚過後，很多人開始思考，把AI數字人做到如此逼真，釋出這樣一個技術真的合适嗎？

畢竟用AI僞造音頻視訊詐騙的例子，我們已經見過太多。

就在2個多月前，還有一起假冒公司CFO開視訊會議，直接騙走1.8個億的案件發生。

微軟團隊也意識到了這一問題，并作出如下聲明：

我們的研究重點是為數字人生成視覺情感，旨在實作積極的應用。無意建立用于誤導或欺騙的内容。

然而，與其他相關内容生成技術一樣，它仍然可能被濫用于模仿人類。

我們反對任何創造真實人物的誤導性或有害内容的行為，并且有興趣應用我們的技術來推進僞造檢測……

目前VASA-1隻釋出了論文，看來短時間内也不會釋出Demo或開源代碼了。

微軟表示，該方法生成的視訊仍然包含可識别的痕迹，數值分析表明，距離真實視訊的真實性仍有差距。

不上專業評估手段，肉眼看的話，仔細挑刺或直接對比真人視訊，确實也能發現目前VASA-1示範視訊中的一些瑕疵。

比如牙齒偶爾會變形。

以及眼神還不像真人那麼豐富。（眼睛确實是心靈的窗戶啊）

但是以“AIGC一天，人間一年”的進步速度來看，修複這些瑕疵恐怕也不用很久。

以及你能保證每時每刻都保持警惕分辨視訊真假麼？

眼見不再為實。預設不相信任何視訊，成了很多人今天做出的選擇。

不管怎麼樣，正如一位網友總結。

我們無法撤銷已經完成的發明，隻能擁抱未來。

論文位址：

https://arxiv.org/abs/2404.10667

參考連結：

[1]https://www.microsoft.com/en-us/research/project/vasa-1/

[2]https://x.com/bindureddy/status/1780737428715950460

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

微軟炸裂級單圖生數字人，Sora同款思路，“比AI劉強東還真”

3大關鍵技術，Sora同款思路

AI造假成本越來越低了

繼續閱讀

拼到搶5！王哲林化身及時雨，怒砍31+14拒絕再被逆轉，吳前留遺憾

劉強東夫婦亮相李雲迪演奏會，章澤天秒變“小迷妹”

劉強東帶章澤天聽音樂會，男方緊盯小天，怕走散主動牽手好恩愛

甜炸了！劉強東章澤天一起看李雲迪演出！誰更愛一眼千裡！

劉強東：京東公司都是平民，要讓兄弟們活得有尊嚴！

劉強東：如果當年三條線同時虧，今天京東會是什麼樣？

劉強東帶章澤天看音樂會，全程手牽手膩歪得很，章澤天素顔清純，

劉強東AI數字人再直播！亮相京東真便宜采銷直播間帶來5折爆品

林恬兒慶祝十周年，李嘉欣成他的“寶”，劉強東直接“甜度”拉滿

劉強東章澤天牽手看李雲迪音樂會，夫妻倆人如膠似漆，感情非常好

劉強東果然有眼光，偷偷養大兩個千億獨角獸，已成為京東新王牌

京東數字人“劉強東”遭網友痛批，假貨、翻新機售後糾紛不斷！

劉強東再掀風波！這次他帶了什麼壞頭？引發社會熱議！

章澤天與劉強東散步：兩人皆精心穿着，展現優雅溫馨場景

騙董明珠26億，還把劉強東、王健林都拉下水，魏銀倉如何做到的？

劉強東數字人直播訂單量破10萬！數字人直播該怎麼做？