視訊也可以用擴散模型來生成了，效果很能打：新SOTA已達成｜谷歌

2022-04-11 13:29:03

擴散模型最近是真的有點火。

前有OpenAI用它打敗霸榜多年的GAN，現在谷歌又緊随其後，提出了一個視訊擴散模型。

和圖像生成一樣，初次嘗試，它居然就表現出了不俗的性能。

比如輸入“fireworks”，就能生成這樣的效果：

滿屏煙花盛放，肉眼看上去簡直可以說是以假亂真了。

為了讓生成視訊更長、分辨率更高，作者還在這個擴散模型中引入了一種全新的采樣方法。

最終，該模型在無條件視訊生成任務中達到全新SOTA。

一起來看。

由圖像擴散模型擴充而成

這個擴散視訊模型，由标準的圖像擴散模型UNet擴充而成。

UNet是一種神經網絡架構，分為空間下采樣通道和上采樣通道，通過殘差連接配接。

該網絡由多層2D卷積殘差塊建構而成，每個卷積塊後面跟着一個空間注意塊。

通過固定幀數的塊，以及在空間和時間上分解的3D U-Net，就可以将它擴充為視訊模型。

具體來說：

先将每個二維卷積更改為三維卷積（space-only），比如将3x3卷積更改為1x3x3卷積（第一軸（axis）索引視訊幀，第二軸和第三軸索引空間高度和寬度）。

每個空間注意塊中的注意力仍然專注于空間次元。

然後，在每個空間注意塊之後，插入一個時間注意塊；該時間注意塊在第一個軸上執行注意力，并将空間軸視為批處理軸（batch axes）。

衆所周知，像這樣在視訊Transformer中分對時空注意力進行分解，會讓計算效率更高。

由此一來，也就能在視訊和圖像上對模型進行聯合訓練，而這種聯合訓練對提高樣本品質很有幫助。

此外，為了生成更長和更高分辨率的視訊，作者還引入了一種新的調整技術：梯度法。

它主要修改模型的采樣過程，使用基于梯度的優化來改善去噪資料的條件損失，将模型自回歸擴充到更多的時間步（timestep）和更高的分辨率。

評估無條件和文本條件下的生成效果

對于無條件視訊生成，訓練和評估在現有基準上進行。

該模型最終獲得了最高的FID分數和IS分數，大大超越了此前的SOTA模型。

對于文本條件下的視訊生成，作者在1000萬個字幕視訊的資料集上進行了訓練，空間分辨率為64x64px；

在此之前，視訊生成模型采用的都是各種GAN、VAE，以及基于流的模型以及自回歸模型。

是以這也是他們首次報告擴散模型根據文本生成視訊的結果。

下圖則顯示了無分類器引導對該模型生成品質的影響：與其他非擴散模型一緻，添加引導會增加每個單獨圖像的保真度（右為該視訊擴散模型，可以看到它的圖檔更加真實和清晰）。

△ 圖檔為随機截取的視訊幀

最後，作者也驗證發現，他們所提出的梯度法在生成長視訊時，确實比此前的方法更具多樣性，也就更能保證生成的樣本與文本達成一緻。

△ 右為梯度法

視訊也可以用擴散模型來生成了，效果很能打：新SOTA已達成｜谷歌

繼續閱讀

面對ChatGPT全球火爆，中國AI應該如何C位出道？

矽谷大廠L5們：寒冬中的幸存者

為什麼歐洲無法建立能夠與Android和iOS抗衡的移動作業系統？

裁員一萬轉身擁抱AI，Meta又要改名了

微軟谷歌要用AI重塑業務，馬斯克稱AI會摧毀人類……聊聊AI那點事兒

三星“背刺”谷歌

AI競争白熱化，谷歌再出大招！合并旗下DeepMind和谷歌大腦

合并DeepMind和Google Brain，谷歌迎來AI新時代

SpaceX“星艦”誕生和發射的背後，是馬斯克堅持了20年的太空夢

繼續迎戰微軟！谷歌生成式AI Bard可以程式設計和調試代碼錯誤了

在AI研發上一事無成，還一邊裁員一邊給自己發“紅包”？谷歌CEO去年狂賺近16億

谷歌CEO皮查伊：人工智能占了C位搜尋很重要但不再是核心業務

蘋果谷歌牽頭制定追蹤行業規範草案防止功能遭濫用

在巴西引發衆怒後，谷歌下架《奴隸模拟器》遊戲

皇後樂隊版權售價超10億美元，EXO成員與SM娛樂終止合同

一周3天待不住，亞馬遜CEO被逼放狠話：不回辦公室，就走人！