1. Progressive Growing of GANs for Improved Quality, Stability, and Variation
Tero Karras, Timo Aila, Samuli Laine & Jaakko Lehtinen (NVIDIA and Aalto University)
來自NVIDIA Research的GAN論文,提出以一種漸進增大(progressive growing)的方式訓練GAN,通過使用逐漸增大的 GAN 網絡(稱為PG-GAN)和精心處理的 CelebA-HQ 資料集,實作了效果令人驚歎的生成圖像。作者表示,這種方式不僅穩定了訓練,GAN生成的圖像也是迄今為止品質最好的。

它的關鍵想法是漸進地增大生成器和鑒别器:從低分辨率開始,随着訓練的進展,添加新的層對越來越精細的細節進行模組化。“Progressive Growing” 指的是先訓練4x4的網絡,然後訓練8x8,不斷增大,最終達到1024x1024。這既加快了訓練速度,又大大穩定了訓練速度,并且生成的圖像品質非常高,例如1024×1024的CelebA圖像。
資料集和代碼都已開源。
論文:https://arxiv.org/pdf/1710.10196.pdf
源代碼:https://github.com/tkarras/progressive_growing_of_gans
2. Spectral Normalization for Generative Adversarial Networks
Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida (2018)
來自日本研究者的ICLR 2018論文,提出了一種叫做 “譜歸一化”(spectral normalization)的新的權重歸一化(weight normalization)技術,來穩定判别器的訓練。這種新歸一化技術計算輕巧,易于并入現有的部署當中。我們在 CIFAR10,STL-10 和 ILSVRC2012 資料集上測試了譜歸一化的功效,通過實驗證明了相對于那些使用此前提出的訓練穩定技術訓練的 GAN,譜歸一化 GAN(SN-GAN)能夠生成品質相同乃至更好的圖像。
簡單說,論文提出了一種新的權重歸一化方法,用于穩定判别器的訓練。作者在論文中寫道,他們的歸一化方法需要調整的超參數隻要一個,就是 Lipschitz 常數,而且即使不調整這個超參數,也能獲得滿意的性能。此外,算法實作簡單,額外的計算成本很小。
論文位址:https://openreview.net/pdf?id=B1QRgziT-
3. cGANs with Projection Discriminator
Takeru Miyato, Masanori Koyama (2018)
這篇論文提出了一種新的、基于投影的方法,将有條件的資訊(conditional information)納入GAN的判别器。這種方法與目前的大多數條件GAN(cGAN)的架構不同,它是通過将(嵌入的)條件向量連接配接到特征向量來使用條件資訊。通過這樣的修改,研究者在ImageNet的class conditional圖像生成品質比目前最優結果顯著提高,并且這是隻通過一對discriminator和generator實作的。該研究還将應用擴充到超分辨率,并成功地生成了高品質的超分辨率圖像。代碼、生成的圖像和預訓練的模型可用。
論文:https://openreview.net/pdf?id=ByS1VpgRZ
代碼:https://github.com/pfnet-research/sngan_projection
4. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
T-C Wang, M-Y Liu, J-Y Zhu [NVIDIA Corporation & UC Berkeley] (2017)
來自NVIDIA和UC Berkeley的研究,Pix2pixHD 利用條件 GAN 進行高清圖像合成和處理(分辨率 2048x1024),輸入語義标注圖,系統能夠生成逼真的現實世界圖像,例如街景、人臉。
研究者提出一種多尺度的生成器和判别器架構,結合新的對抗學習目标函數。實驗結果表明,條件 GAN 能夠合成高分辨率、照片級逼真的圖像,不需要任何手工損失或預訓練的網絡。
不僅如此,作者還提出了一種方法,讓使用者能夠互動式地編輯物體的外觀,大大豐富了生成的資料類型。例如,在下面的視訊中,你可以發現使用者能夠選擇更換街景中車輛的顔色和型号,給街景圖增加一些樹木,或者改變街道類型(例如将水泥路變成十字路)。類似地,利用語義标注圖合成人臉時,給定語義标注的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加胡子等。
作者在文中指出,他們的方法可以擴充到其他領域,尤其是醫療圖像這樣缺乏預訓練網絡的領域。
項目和論文:https://tcwang0509.github.io/pix2pixHD/
5. Are GANs Created Equal? A Large-Scale Study
M Lucic, K Kurach, M Michalski, S Gelly, O Bousquet [Google Brain] (2017)
這是來自谷歌大腦團隊的研究,他們對 MM GAN、NS GAN、WGAN、WGAN GP、LS GAN、DRAGAN、BEGAN 等近期出現的優秀 GAN 模型進行了客觀的性能比較,發現這些模型并沒有像它們聲稱的那樣優于原始 GAN。
研究者稱,他們對 state-of-the-art 的一些 GAN 模型進行了公平、全面的比較,證明在有足夠高的計算預算的情況下,幾乎所有這些 GAN 都可以達到相似的 FID 值。
他們的實驗證據(重制這些實驗的計算預算大約是 60K P100 GPU 小時)證明為了比較 GAN 的性能,有必要報告其結果分布的一個 summary,而不是隻報告最好的結果,因為優化過程存在随機性和模型不穩定性。
Ian Goodfellow 評論此工作:ML 的研究人員,審稿人和有關 ML 的新聞報道需要對結果的統計穩健性和超參數的效果進行更認真的研究。這項研究表明,過去一年多的很多論文隻是觀察抽樣誤差,而不是真正的改進。
論文:https://arxiv.org/pdf/1711.10337.pdf
6. Improved Training of Wasserstein GANs
Gulrajani, F Ahmed, M Arjovsky, V Dumoulin, A Courville
生成對抗網絡(GANs)是一個功能十分強大的模型,但現階段仍然受到訓練不穩定的問題幹擾。最近新提出的 Wasserstein 對抗網絡(WGAN)在對GANs的訓練的穩定性方面取得了進展,但有時仍然隻能産生低品質的樣本,或者出現無法收斂的問題。這篇文章中提出的方法比标準的WGAN性能優越,在幾乎不需要超參數調優的情況下,可以保證對各種結構的GAN進行穩定的訓練,其中包括101層的ResNets模型和基于離散資料的語言模型。
文章的主要貢獻如下:
保證對各種各樣的GAN結構進行穩定的訓練
提出了一種基于梯度懲罰的生成對抗網絡((WGAN-GP),同樣可以保證穩定的訓練
對各種GAN模型結構訓練的穩定性進行了改善,并展示了權重的剪枝問題對結果的改善情況,同時論文中也展示了對高品質圖像的生成以及對一個無離散采樣的字元級的語言模型的性能改進。
實驗結果對比如表1所示:
論文:https://arxiv.org/pdf/1704.00028.pdf
7. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks
Han Zhang et. al.
盡管生成的敵對網絡(GANs)在各種任務中已經取得了顯著的成功,但它們仍然在生成高品質圖像方面面臨挑戰。本文提出了一種堆疊的生成對抗網絡(StackGAN),目标是生成高分辨率的現實圖像。
首先,本文提出了一個包含兩階段的生成對抗網絡架構stack GAN-v1用于文本-圖像合成。根據給定的文字描述,GAN在第一階段描繪出了物體的原始形狀和顔色,産生了低分辨率的圖像。在第二階段,GAN将第一階段的低分辨率圖像和文字描述作為輸入,并以逼真的細節生成高分辨率的圖像。
其次,提出了一種多階段的生成對抗性網絡架構,即StackGAN-v2,用于有條件和無條件的生成任務。提出的StackGAN-v2由多個樹狀結構的生成器和判别器組成。樹的不同分支可以生成對應于同一場景的多個尺寸的圖像。通過對多個分布的聯合逼近,StackGAN-v2顯示了比StackGAN -v1更穩定的訓練結果。大量的實驗證明,在生成高清圖像時,文章提出的堆疊的生成對抗網絡比其他現階段表現優異的算法更具優勢。文章中提出的模型如圖1所示:
論文:https://arxiv.org/pdf/1710.10916.pdf
8. Privacy-preserving generative deep neural networks support clinical data sharing
B K. Beaulieu-Jones, Z S Wu, C Williams, C S. Greene [University of Pennsylvania] (2017)
盡管人們普遍認識到,資料共享促進了科學的快速發展,但保護參與者隐私的合理需求阻礙了醫學的實踐。通過生成患者的模拟資料,作為訓練資料來對深度神經網絡進行訓練。以SPRINT實驗為例,實驗中展示了通過使用模拟資料對機器學習模型進行訓練可以泛化得到原始資料。通過結合不同使用者的隐私,提出方法可以強有力地保證模型資料可以對應到每一編制資料集的調查人員。
對于資料集建構完成的研究人員,他們可以用論文中提出的方法,為進行相關研究的科研人員提供自用通路的公共版本資料集。即使在需要考慮隐私的條件下,生成的資料也可以與相關代碼一起釋出,友善其他研究人員進行算法複現。通過解決資料共享的挑戰,深度神經網絡可以促進對臨床資料集進行嚴格的可重複調查。
論文:https://www.biorxiv.org/content/early/2017/07/05/159756
9. Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks
L Mescheder, S Nowozin, A Geiger [MPI Tubingen & Microsoft Research Cambridge] (2017)
變分型自動編碼器(VAEs)是一種具有表達能力的潛在變量模型,可用于從訓練資料中學習複雜的機率分布。然而,結果模型的品質主要依賴于推理模型的表達能力。文中引入了對抗型的變分貝葉斯(AVB),這是一種通過使用任意表達的推斷模型來訓練可變汽車編碼的技術。文中通過引入一個輔助的判别網絡來實作這一目标,這個網絡允許将最大似然問題重新定義為雙方博弈問題,是以在VAEs 和生成對抗網絡之間建立了一個規則連接配接。
結果表明,在非參數的限制條件下,提出方法可以獲得生成模型參數的最大似然估計,并且通過觀察可以得到隐變量的準确的後驗分布。不同于VAEs和GANs相結合的競争方法,論文中提出的方法有一個明确的理論依據。而且算法中保留了标準變分自動編碼器的大多數優點,并更容易實作。算法模型與标準AVE的對比圖如圖下所示:
在二值化的MNIST資料集上的結果如表2所示,分别對應的是AVB和基于VAEs的各種改善算法。通過對表中結果分析可以發現,提出算法在二值化的MNIST資料集上可以獲得最優的對數似然估計。在表的下半段的對數似然估計不是通過AIS獲得的,而是通過重要性抽樣的方法。
論文:https://arxiv.org/pdf/1701.04722.pdf
10. Gradient descent GAN optimization is locally stable
V Nagarajan, J. Z Kolter [CMU] (2017)
盡管生成對抗網絡(GANs)的應用日益突出,但是GANs的優化仍然是一個棘手的問題。這篇文章分析了基于梯度下降形式的GANs的優化,例如在自然環境中,生成器和判别式參數同時使用小梯度的下降。文中證明了,即使是簡單的參數化問題,GAN的優化也不與凹凸優化問題對應。在合适的條件下,對于傳統的GAN算法的規則,優化過程的平衡點仍然是局部漸進平穩的。
另一方面,論文中也證明了最近提出的Wasserstein GAN在接近平衡點的時具有非收斂的限制周期。受到這一穩定性分析的啟發,文中提出了一種新的正則化方法,用于對GAN的梯度下降的更新,既能保證WGAN和傳統GAN的局部穩定性,又能在加速收斂和處理模型衰竭方面具有實際的應用前景。
對比結果如下圖所示,左邊為使用了梯度正則化方法的結果圖,右邊為傳統的DCGAN結構獲得的結果圖,分别對應的是經過1,4,20次疊代後的結果:
原文釋出時間為:2018-03-1
本文作者:小潘、肖琴
本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号