【2019 arxiv】
Karras, Tero, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. “Analyzing and improving the image quality of stylegan.” arXiv preprint arXiv:1912.04958 (2019).
任務:無條件圖像生成
問題:對StyleGAN中出現的小氣泡的失真現象進行分析
本文對StyleGAN模型進行了全面的分析,對原來出現的小氣泡狀的失真現象進行了分析,并提出了改進後的StyleGAN_v2
本文首先對原來的網絡進行進行了改進,将原來在特征圖上進行了modulation和normalization改在了在網絡權重中進行modulation和demodulation,同時對損失函數采用不同的使用頻率,并增加了Path Length的正則化,同時不再使用progress growing的政策,而是在G中使用skip結構,在D中使用residual結構,所有尺度同時訓練,最後還提出了對64-1024尺度的特征圖通道數翻倍的更大的網絡。
作者在StyleGAN的基礎上一共提出了五項改進,同時作者發現Perceptual Path Length的結果與人的感覺更相符
Weight domodulation
(a)是StyleGAN的模型
(b)是StyleGAN中間的詳細細節
©是對StyleGAN進行了改進
①将noise(B)和bias(b)移到每個block之外(在normalization之後)
②norm和modulation的操作隻需要對方差進行,不需要對均值進行
③在輸入層的bias、noise和norm可以移除
(d)對©中的Instance Normalization進行了改進
©中的modulation是對于特征圖進行的,作者提出可以改為對模型參數進行限制
Modulation:
Demodulation:
在具體實作時使用group convolution操作
Lazy regularization
當模型有main loss和regularization loss時,對于regularization loss的計算頻率可以更少(例如每更新16個main loss後使用一次regularization loss),在不影響模型效率的同時可以減少計算量和記憶體使用
Path length regularization
為了使得隐向量空間到圖像的映射更加連續,限制每個方向的路徑長度都變小
其中w為z在經過8個FC後的隐狀态向量,y=g(w)為生成圖像
a為||y_w^Ty||_2的指數平滑均值
計算時實際使用下式計算
不使用Progressive growing方法
(a)為StyleGAN中使用的方法,(b)為skip-connection方法,©為residual方法
通過實驗發現在生成器中使用skip方法,在判别器中使用residual方法的效果更好
Large Network
作者同時實驗發現在訓練的不同階段,不同尺度的圖像對最終生成圖像的影響不同,但是在改進後的StyleGAN中發現,512尺度的圖像的影響度比1024尺度的大,是以認為可能是網絡容量不夠導緻的
為此提出了将64-1024尺度階段中所有特征圖的通道數翻倍
資料集
FFHQ(1024 * 1024)
LSUN Car(512 * 384)
LSUN Cat(256 * 256)
LSUN Church(256 * 256)
LSUN Horse(256 * 256)
評價名額
①FID
②Perceptual Path Length(PPL)
其中w=f(z)表示經過FC後的在隐狀态的向量,然後對兩個w之間進行插值,計算每隔一小步後生成的兩張圖像,在所有中間特征層的特征距離的均值,再對所有區間進行求和,作為這兩個w對之間的距離,再采樣100000個z對進行計算
③Precision&Recall
ϕ ϕ ϕ為一個圖像的特征, Φ g Φ_g Φg 表示生成圖像組成的特征集合, Φ r Φ_r Φr 表示真實圖像組成的特征集合
f判斷某一圖像特征是否在某一集合特征中任意特征的最k鄰近集之中
實驗
①将生成圖像或真實圖像傳回到W空間,然後再重新生成圖像,并計算前後兩張圖像之間的距離(使用LPIPS距離)
其中,傳回到W空間時,通過反向傳播方法同時求出最優的W空間向量和輸入噪聲n
損失函數如下:
後一項是為了限制噪聲符合正态分布
重建圖像及最優化噪聲
重建前後圖像的LPIPS距離
重建圖像的對比
②生成圖像