天天看點

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

擴散模型最近是真的有點火。

前有OpenAI用它打敗霸榜多年的GAN,現在谷歌又緊随其後,提出了一個視訊擴散模型。

和圖像生成一樣,初次嘗試,它居然就表現出了不俗的性能。

比如輸入“fireworks”,就能生成這樣的效果:

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

滿屏煙花盛放,肉眼看上去簡直可以說是以假亂真了。

為了讓生成視訊更長、分辨率更高,作者還在這個擴散模型中引入了一種全新的采樣方法。

最終,該模型在無條件視訊生成任務中達到全新SOTA。

一起來看。

由圖像擴散模型擴充而成

這個擴散視訊模型,由标準的圖像擴散模型UNet擴充而成。

UNet是一種神經網絡架構,分為空間下采樣通道和上采樣通道,通過殘差連接配接。

該網絡由多層2D卷積殘差塊建構而成,每個卷積塊後面跟着一個空間注意塊。

通過固定幀數的塊,以及在空間和時間上分解的3D U-Net,就可以将它擴充為視訊模型。

具體來說:

先将每個二維卷積更改為三維卷積(space-only),比如将3x3卷積更改為1x3x3卷積(第一軸(axis)索引視訊幀,第二軸和第三軸索引空間高度和寬度)。

每個空間注意塊中的注意力仍然專注于空間次元。

然後,在每個空間注意塊之後,插入一個時間注意塊;該時間注意塊在第一個軸上執行注意力,并将空間軸視為批處理軸(batch axes)。

衆所周知,像這樣在視訊Transformer中分對時空注意力進行分解,會讓計算效率更高。

由此一來,也就能在視訊和圖像上對模型進行聯合訓練,而這種聯合訓練對提高樣本品質很有幫助。

此外,為了生成更長和更高分辨率的視訊,作者還引入了一種新的調整技術:梯度法。

它主要修改模型的采樣過程,使用基于梯度的優化來改善去噪資料的條件損失,将模型自回歸擴充到更多的時間步(timestep)和更高的分辨率。

評估無條件和文本條件下的生成效果

對于無條件視訊生成,訓練和評估在現有基準上進行。

該模型最終獲得了最高的FID分數和IS分數,大大超越了此前的SOTA模型。

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

對于文本條件下的視訊生成,作者在1000萬個字幕視訊的資料集上進行了訓練,空間分辨率為64x64px;

在此之前,視訊生成模型采用的都是各種GAN、VAE,以及基于流的模型以及自回歸模型。

是以這也是他們首次報告擴散模型根據文本生成視訊的結果。

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

下圖則顯示了無分類器引導對該模型生成品質的影響:與其他非擴散模型一緻,添加引導會增加每個單獨圖像的保真度(右為該視訊擴散模型,可以看到它的圖檔更加真實和清晰)。

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

△ 圖檔為随機截取的視訊幀

最後,作者也驗證發現,他們所提出的梯度法在生成長視訊時,确實比此前的方法更具多樣性,也就更能保證生成的樣本與文本達成一緻。

視訊也可以用擴散模型來生成了,效果很能打:新SOTA已達成|谷歌

△ 右為梯度法

繼續閱讀