新智元

【導讀】每次GAN模型都要從頭訓練的日子過去了!最近CMU聯手Adobe提出了一種新的模型內建政策,讓GAN模型也能用上預訓練,成功解決「判别器過拟合」這個老大難問題。
進入預訓練時代後,視覺識别模型的性能得到飛速發展,但圖像生成類的模型,比如生成對抗網絡GAN似乎掉隊了。
通常GAN的訓練都是以無監督的方式從頭開始訓練,費時費力不說,大型預訓練通過大資料學習到的「知識」都沒有利用上,豈不是很虧?
而且圖像生成本身就需要能夠捕捉和模拟真實世界視覺現象中的複雜統計資料,不然生成出來的圖檔不符合實體世界規律,直接一眼鑒定為「假」。
預訓練模型提供知識、GAN模型提供生成能力,二者強強聯合,多是一件美事!
問題來了,哪些預訓練模型、以及如何結合起來才能改善GAN模型的生成能力?
最近來自CMU和Adobe的研究人員在CVPR 2022發表了一篇文章,通過「選拔」的方式将預訓練模型與GAN模型的訓練相結合。
論文連結:https://arxiv.org/abs/2112.09130
項目連結:https://github.com/nupurkmr9/vision-aided-gan
視訊連結:https://www.youtube.com/watch?v=oHdyJNdQ9E4
GAN模型的訓練過程由一個判别器和一個生成器組成,其中判别器用來學習區分真實樣本和生成樣本的相關統計資料,而生成器的目标則是讓生成的圖像與真實分布盡可能相同。
理想情況下,判别器應當能夠測量生成圖像和真實圖像之間的分布差距。
但在資料量十分有限的情況下,直接上大規模預訓練模型作為判别器,非常容易導緻生成器被「無情碾壓」,然後就「過拟合」了。
通過在FFHQ 1k資料集上的實驗來看,即使采用最新的可微分資料增強方法,判别器仍然會過拟合,訓練集性能很強,但在驗證集上表現得很差。
此外,判别器可能會關注那些人類無法辨識但對機器來說很明顯的僞裝。
為了平衡判别器和生成器的能力,研究人員提出将一組不同的預訓練模型的表征集合起來作為判别器。
這種方法有兩個好處:
1、在預訓練的特征上訓練一個淺層分類器是使深度網絡适應小規模資料集的常見方法,同時可以減少過拟合。
也就是說隻要把預訓練模型的參數固定住,再在頂層加入輕量級的分類網絡就可以提供穩定的訓練過程。
比如上面實驗中的Ours曲線,可以看到驗證集的準确率相比StyleGAN2-ADA要提升不少。
2、最近也有一些研究證明了,深度網絡可以捕獲有意義的視覺概念,從低級别的視覺線索(邊緣和紋理)到進階别的概念(物體和物體部分)都能捕獲。
建立在這些特征上的判别器可能更符合人類的感覺能力。
并且将多個預訓練模型組合在一起後,可以促進生成器在不同的、互補的特征空間中比對真實的分布。
為了選擇效果最好的預訓練網絡,研究人員首先搜集了多個sota模型組成一個「模型銀行」,包括用于分類的VGG-16,用于檢測和分割的Swin-T等。
然後基于特征空間中真實和虛假圖像的線性分割,提出一個自動的模型搜尋政策,并使用标簽平滑和可微分的增強技術來進一步穩定模型訓練,減少過拟合。
具體來說,就是将真實訓練樣本和生成的圖像的并集分成訓練集和驗證集。
對于每個預訓練的模型,訓練一個邏輯線性判别器來分類樣本是來自真實樣本還是生成的,并在驗證分割上使用「負二進制交叉熵損失」測量分布差距,并傳回誤差最小的模型。
一個較低的驗證誤差與更高的線性探測精度相關,表明這些特征對于區分真實樣本和生成的樣本是有用的,使用這些特征可以為生成器提供更有用的回報。
研究人員我們用FFHQ和LSUN CAT資料集的1000個訓練樣本對GAN訓練進行了經驗驗證。
結果顯示,用預訓練模型訓練的GAN具有更高的線性探測精度,一般來說,可以實作更好的FID名額。
為了納入多個現成模型的回報,文中還探索了兩種模型選擇和內建政策
1)K-fixed模型選擇政策,在訓練開始時選擇K個最好的現成模型并訓練直到收斂;
2)K-progressive模型選擇政策,在固定的疊代次數後疊代選擇并添加性能最佳且未使用的模型。
實驗結果可以發現,與K-fixed政策相比,progressive的方式具有更低的計算複雜度,也有助于選擇預訓練的模型,進而捕捉到資料分布的不同。例如,通過progressive政策選擇的前兩個模型通常是一對自監督和監督模型。
文章中的實驗主要以progressive為主。
最終的訓練算法首先訓練一個具有标準對抗性損失的GAN。
給定一個基線生成器,可以使用線性探測搜尋到最好的預訓練模型,并在訓練中引入損失目标函數。
在K-progressive政策中,在訓練了與可用的真實訓練樣本數量成比例的固定疊代次數後,把一個新的視覺輔助判别器被添加到前一階段具有最佳訓練集FID的快照中。
在訓練過程中,通過水準翻轉進行資料增強,并使用可微分的增強技術和單側标簽平滑作為正則化項。
還可以觀察到,隻使用現成的模型作為判别器會導緻散度(divergence),而原始判别器和預訓練模型的組合則可以改善這一情況。
最終實驗展示了在FFHQ、LSUN CAT和LSUN CHURCH資料集的訓練樣本從1k到10k變化時的結果。
在所有設定中,FID都能獲得顯著提升,證明了該方法在有限資料場景中的有效性。
為了定性分析該方法和StyleGAN2-ADA之間的差異,根據兩個方法生成的樣本品質來看,文中提出的新方法能夠提高最差樣本的品質,特别是對于FFHQ和LSUN CAT
當我們逐漸增加下一個判别器時,可以看到線性探測對預訓練模型的特征的準确性在逐漸下降,也就是說生成器更強了。
總的來說,在隻有1萬個訓練樣本的情況下,該方法在LSUN CAT上的FID與在160萬張圖像上訓練的StyleGAN2性能差不多。
而在完整的資料集上,該方法在LSUN的貓、教堂和馬的類别上提高了1.5到2倍的FID。
作者Richard Zhang在加州大學伯克利分校獲得了博士學位,在康奈爾大學獲得了大學和碩士學位。主要研究興趣包括計算機視覺、機器學習、深度學習、圖形和圖像處理,經常通過實習或大學與學術研究人員合作。
作者Jun-Yan Zhu是卡内基梅隆大學計算機科學學院的機器人學院的助理教授,同時在計算機科學系和機器學習部門任職,主要研究領域包括計算機視覺、計算機圖形學、機器學習和計算攝影。
在加入CMU之前,他曾是Adobe Research的研究科學家。大學畢業于清華大學,博士畢業于加州大學伯克利分校,然後在MIT CSAIL做博士後。
參考資料: