天天看點

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

作者:量子位

夢晨 發自 凹非寺

量子位 | 公衆号 QbitAI

AI僞造真人視訊,門檻再次降低。

微軟釋出一張圖生成數字人技術VASA-1,網友看過直呼“炸裂級效果”,比“AI劉強東還真”。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

話不多說,直接上一分鐘示範視訊:

做到以假亂真效果,不用針對特定人物訓練,隻要上傳一張人臉圖檔、一段音頻,哪怕不是真人也行。

比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。

或者讓素描人像念華強台詞。

在項目首頁還有更多1分鐘視訊,以及更更多15秒視訊可看。

不同性别、年齡、種族的數字人,用着不同的口音在說話。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

根據團隊在論文中的描述,VASA-1擁有如下特點:

  • 唇形與語音的精準同步

這是最基本的,VASA-1在定量評估中也做到了頂尖水準。

  • 豐富而自然的面部表情

不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟着協調運動,避免顯得呆闆。

  • 人性化的頭部動作

說話時适當的點頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。

總得來說,仔細看的話眼睛還有一些破綻,但已經被網友評為“迄今為止最佳示範”。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

然而更恐怖的是,整個系統推理速度還是實時級的。

生成512x512分辨率的視訊,使用一塊英偉達RTX4090顯示卡就能跑到40fps。

那麼,VASA-1是如何做到這些的呢?

3大關鍵技術,Sora同款思路

一句話概括:

不是直接生成視訊幀,而是在潛空間中生成動作編碼,再還原成視訊。

是不是和Sora的思路很像了?

其實VASA-1的模型架構選擇Diffusion Transformer,也與Sora核心元件一緻。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

據論文描述,背後還有3大關鍵技術:

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

人臉潛編碼學習,這部分是高度解耦的。

團隊從大量個真實的說話視訊中,學習到一個理想的人臉特征空間。

把身份、外觀、表情、姿态等因素在隐空間裡剝離開。這樣一來,同一個動作就能驅動不同的臉,換成誰都很自然。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

頭部運動生成模型,這部分又是高度統一的。

不同于之前的方法分别模組化嘴唇、眼神、眉毛、頭部姿态等局部動作,VASA-1把所有面部動态統一編碼,用Diffution Transfromer模型,也就是SORA同款核心元件,來模組化其機率分布。

這樣既能生成更協調自然的整體動作,又能借助transformer強大的時序模組化能力,學習長時依賴。

比如給定一組原始序列(下圖第一列),最終可以做到:

  • 用原始頭部姿态,改變面部表情(第二列)
  • 用原始面部表情,改變頭部姿态(第三列)
  • 用原始面部表情,生成全新的頭部姿态(第四列)
微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

最後是高效率推理。

為了實作秒實時合成,團隊對擴散模型的推理過程進行了大量優化。

此外,VASA-1還允許使用者輸入一些可選的控制信号,比如人物的視線方向、情緒基調等,進一步提升了可控性。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

AI造假成本越來越低了

被VASA-1效果震驚過後,很多人開始思考,把AI數字人做到如此逼真,釋出這樣一個技術真的合适嗎?

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”
微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

畢竟用AI僞造音頻視訊詐騙的例子,我們已經見過太多。

就在2個多月前,還有一起假冒公司CFO開視訊會議,直接騙走1.8個億的案件發生。

微軟團隊也意識到了這一問題,并作出如下聲明:

我們的研究重點是為數字人生成視覺情感,旨在實作積極的應用。無意建立用于誤導或欺騙的内容。

然而,與其他相關内容生成技術一樣,它仍然可能被濫用于模仿人類。

我們反對任何創造真實人物的誤導性或有害内容的行為,并且有興趣應用我們的技術來推進僞造檢測……

目前VASA-1隻釋出了論文,看來短時間内也不會釋出Demo或開源代碼了。

微軟表示,該方法生成的視訊仍然包含可識别的痕迹,數值分析表明,距離真實視訊的真實性仍有差距。

不上專業評估手段,肉眼看的話,仔細挑刺或直接對比真人視訊,确實也能發現目前VASA-1示範視訊中的一些瑕疵。

比如牙齒偶爾會變形。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

以及眼神還不像真人那麼豐富。(眼睛确實是心靈的窗戶啊)

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

但是以“AIGC一天,人間一年”的進步速度來看,修複這些瑕疵恐怕也不用很久。

以及你能保證每時每刻都保持警惕分辨視訊真假麼?

眼見不再為實。預設不相信任何視訊,成了很多人今天做出的選擇。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

不管怎麼樣,正如一位網友總結。

我們無法撤銷已經完成的發明,隻能擁抱未來。
微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”

論文位址:

https://arxiv.org/abs/2404.10667

參考連結:

[1]https://www.microsoft.com/en-us/research/project/vasa-1/

[2]https://x.com/bindureddy/status/1780737428715950460

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀