夢晨 發自 凹非寺
量子位 | 公衆号 QbitAI
AI僞造真人視訊,門檻再次降低。
微軟釋出一張圖生成數字人技術VASA-1,網友看過直呼“炸裂級效果”,比“AI劉強東還真”。
話不多說,直接上一分鐘示範視訊:
做到以假亂真效果,不用針對特定人物訓練,隻要上傳一張人臉圖檔、一段音頻,哪怕不是真人也行。
比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。
或者讓素描人像念華強台詞。
在項目首頁還有更多1分鐘視訊,以及更更多15秒視訊可看。
不同性别、年齡、種族的數字人,用着不同的口音在說話。
根據團隊在論文中的描述,VASA-1擁有如下特點:
- 唇形與語音的精準同步
這是最基本的,VASA-1在定量評估中也做到了頂尖水準。
- 豐富而自然的面部表情
不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟着協調運動,避免顯得呆闆。
- 人性化的頭部動作
說話時适當的點頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。
總得來說,仔細看的話眼睛還有一些破綻,但已經被網友評為“迄今為止最佳示範”。
然而更恐怖的是,整個系統推理速度還是實時級的。
生成512x512分辨率的視訊,使用一塊英偉達RTX4090顯示卡就能跑到40fps。
那麼,VASA-1是如何做到這些的呢?
3大關鍵技術,Sora同款思路
一句話概括:
不是直接生成視訊幀,而是在潛空間中生成動作編碼,再還原成視訊。
是不是和Sora的思路很像了?
其實VASA-1的模型架構選擇Diffusion Transformer,也與Sora核心元件一緻。
據論文描述,背後還有3大關鍵技術:
人臉潛編碼學習,這部分是高度解耦的。
團隊從大量個真實的說話視訊中,學習到一個理想的人臉特征空間。
把身份、外觀、表情、姿态等因素在隐空間裡剝離開。這樣一來,同一個動作就能驅動不同的臉,換成誰都很自然。
頭部運動生成模型,這部分又是高度統一的。
不同于之前的方法分别模組化嘴唇、眼神、眉毛、頭部姿态等局部動作,VASA-1把所有面部動态統一編碼,用Diffution Transfromer模型,也就是SORA同款核心元件,來模組化其機率分布。
這樣既能生成更協調自然的整體動作,又能借助transformer強大的時序模組化能力,學習長時依賴。
比如給定一組原始序列(下圖第一列),最終可以做到:
- 用原始頭部姿态,改變面部表情(第二列)
- 用原始面部表情,改變頭部姿态(第三列)
- 用原始面部表情,生成全新的頭部姿态(第四列)
最後是高效率推理。
為了實作秒實時合成,團隊對擴散模型的推理過程進行了大量優化。
此外,VASA-1還允許使用者輸入一些可選的控制信号,比如人物的視線方向、情緒基調等,進一步提升了可控性。
AI造假成本越來越低了
被VASA-1效果震驚過後,很多人開始思考,把AI數字人做到如此逼真,釋出這樣一個技術真的合适嗎?
畢竟用AI僞造音頻視訊詐騙的例子,我們已經見過太多。
就在2個多月前,還有一起假冒公司CFO開視訊會議,直接騙走1.8個億的案件發生。
微軟團隊也意識到了這一問題,并作出如下聲明:
我們的研究重點是為數字人生成視覺情感,旨在實作積極的應用。無意建立用于誤導或欺騙的内容。
然而,與其他相關内容生成技術一樣,它仍然可能被濫用于模仿人類。
我們反對任何創造真實人物的誤導性或有害内容的行為,并且有興趣應用我們的技術來推進僞造檢測……
目前VASA-1隻釋出了論文,看來短時間内也不會釋出Demo或開源代碼了。
微軟表示,該方法生成的視訊仍然包含可識别的痕迹,數值分析表明,距離真實視訊的真實性仍有差距。
不上專業評估手段,肉眼看的話,仔細挑刺或直接對比真人視訊,确實也能發現目前VASA-1示範視訊中的一些瑕疵。
比如牙齒偶爾會變形。
以及眼神還不像真人那麼豐富。(眼睛确實是心靈的窗戶啊)
但是以“AIGC一天,人間一年”的進步速度來看,修複這些瑕疵恐怕也不用很久。
以及你能保證每時每刻都保持警惕分辨視訊真假麼?
眼見不再為實。預設不相信任何視訊,成了很多人今天做出的選擇。
不管怎麼樣,正如一位網友總結。
我們無法撤銷已經完成的發明,隻能擁抱未來。
論文位址:
https://arxiv.org/abs/2404.10667
參考連結:
[1]https://www.microsoft.com/en-us/research/project/vasa-1/
[2]https://x.com/bindureddy/status/1780737428715950460
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态