AI視訊生成領域在Sora還沒出世的現在,也就三個産品鼎立,一個是開源的SVD,另兩個是Runway和Pika。而騰訊人工智能實驗室一直在AI視訊領域發力,前不久和香港中文大學聯合釋出了他們的DynamiCrafter視訊生成新模型。從其跟Pika和SVD對比的Demo視訊看,效果挺不錯。
視訊加載中...
DynamiCrafter是使用視訊擴散先驗算法對開放域圖像進行動畫處理的視訊生成模型。它可以根據文本提示,利用預訓練的視訊擴散模型,為任意的靜态圖像生成逼真的視訊内容。目前可以生成三種分辨率的視訊,256*256,320*512,576*1024,下面看看Demo視訊效果。
256*256
320*512
576*1024
DynamiCrafter的大概工作流程是将輸入的圖像投影到一個與文本對齊的豐富的上下文表示空間,使用一個查詢變換器,讓視訊模型能夠以一種相容的方式了解圖像的内容。然後,它會将完整的圖像與初始的噪聲拼接起來,再輸入到擴散模型中,利用擴散模型的運動先驗,生成動态的視訊序列。
拟議的 DynamiCrafter 的流程圖。在訓練過程中,我們通過所提出的雙流圖像注入機制随機選擇視訊幀作為去噪過程的圖像條件,以繼承視覺細節并以上下文感覺的方式消化輸入圖像。在推理過程中,我們的模型可以根據輸入靜态圖像的噪聲生成動畫剪輯。
官方列舉了幾種DynamiCrafter模型的應用執行個體:
1 講故事的視訊生成
2 生成幀插值
3 循環視訊生成
DynamiCrafter模型已經有了Comfyui支援,可以在管理器搜尋下載下傳節點。另外官方還提供了抱抱臉的網頁版試用頁面。
官方位址: https://github.com/doubiiu/dynamicrafter
試用位址:https://huggingface.co/spaces/Doubiiu/DynamiCrafter
很多部落客曾報道過該模型,為了搏噱頭标題動不動就是什麼王炸啊、吊打啊。雖然官方Demo很好看(大家都知道Demo的水分),其實DynamiCrafter模型并不是一個成熟的AI視訊生成模型,隻是算剛剛成型尚未完善的一個工具。官方自己也列出了以下缺點:
生成的視訊相對較短(2秒,FPS=8);
該模型無法呈現清晰的文本;
一般情況下,面孔和人物可能無法正确生成;
模型的自動編碼部分是有損的,導緻輕微的閃爍僞像。
當然,國産AI的進步我們還是要鼓勵,多個AI視訊工具總是好的。