DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

2023-07-31 15:20:09

雷鋒網 AI 科技評論按，近日，DeepMind 的研究人員宣布，VQVAE-2 問世了！

VQ-VAE 是 Vector Quantised-Variational Auto Encoder 的簡寫，此次的 VQ-VAE2 是 DeepMind 基于第一代 VQ-VAE 研究出來的改進模型。相關的論文已被 ICLR2019 接收為口頭報告論文，DeepMind 研究員 Suman Ravuri 做了精彩的現場演講。

論文 ARIXV 連結：http://arxiv.org/abs/1906.00446

論文摘要如下：

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

我們探讨了矢量量化變分自動編碼（VQ-VAE）模型在大規模圖像生成中的應用。為此，我們對VQ-VAE 中使用的自回歸先驗進行了縮放和增強，目的是生成比以前具有更高相關度和保真度的合成樣本。我們使用簡單的前饋編解碼器網絡，這讓我們的模型對于編碼\解碼速度至關重要的應用非常有用。此外，VQ-VAE 僅僅隻需要在壓縮潛在空間中對自回歸模型進行采樣，這比在像素空間中的采樣在速度上快一個數量級，對于大型圖像尤其如此。我們證明了一個 VQ-VAE 的多尺度層次組織，加上強大的先驗潛在代碼，能夠在多種資料集（如 ImageNet）上生成品質與最先進的生成對抗網絡相媲美的樣本，同時不受 GAN 的已知缺點，如模式崩潰、多樣性的缺乏等的影響。

DeepMindAI 的這一研究表明，當用于訓練分類器（資料增強）時，GAN 生成在看起來真實的樣本的能力有限。初始分數與分類表現呈負相關。

論文的三位作者之一，DeepMind 的研究人員 Aaron van den Oord 在 twitter 上表示，這是一個在分層壓縮潛在空間中的強大自回歸模型，在建立示例時，任何模式中都沒有遇到崩潰問題。

更多示例和細節如下：

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

他們使用一個分層的 VQVAE，将圖像壓縮成一個潛在空間，相對于 ImageNet 來說，這個空間要小 50 倍，相對于 FFHQ 面來說，這個空間要小 200 倍。PixelCNN 僅對最新的産品進行模組化，使其能夠将其能力用于全局結構和最明顯的特征上。

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

他們 256 像素的兩級 ImageNet VQVAE 中的樣本如下：

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

結果，他們發現，這些樣本在多樣性方面比競争對手的方法生成的樣本要好得多。

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

對于百萬像素的人臉（1024x1024），他們使用了三級 VQVAE 模型。

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

更多的樣本和高分辨率未壓縮圖像可以在這裡找到：https://t.co/EGaUMHA7FN?amp=1

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

感興趣的童鞋可以下載下傳相關論文，開始愉快地學習吧~

via：https://mobile.twitter.com/avdnoord/status/1135900129402208257

今日資源推薦：

你是否在研究機器學習的時候手裡沒有資料集簡直就像在戰場上槍裡沒有子彈，這次就給大家帶來一點彈藥。

點選下方連結擷取噢~這份PDF是機器學習最常用的一些學術資料集的合集。不僅提供了高速、穩定、牆内可用的下載下傳位址，年歲已久的資料集也已經更新成了現代格式友善直接調用。

https://ai.yanxishe.com/page/resourceDetail/626

GAN 資料增強 deepmind

上一篇: deepmind dnc 是幹什麼的下面是轉載的介紹文章

下一篇: 3. 2020年《DeepMind＆UCL深度學習講座》第3講：卷積神經網絡的圖像識别【中文字幕】

繼續閱讀