StyleGAN2的論文标題是:《Analyzing and Improving the Image Quality of StyleGAN》,它剖析了第一代StyleGAN實踐中發現的一些深層次問題,并就此進行了一些卓有成效的優化。
研究這篇論文,讓我們有機會能夠一窺神經網絡實踐中的一些奧妙,有助于我們了解神經網絡的設計原理和技巧,使得我們有可能設計自己的神經網絡并對它進行優化。
StyleGAN2論文的下載下傳位址是:http://arxiv.org/abs/1912.04958
也可以到百度網盤下載下傳:https://pan.baidu.com/s/15jv2hVVrcC-dsPjqZ_p9Xw 提取碼: rvir
我們打開論文進行閱讀,遇到一個讓人感到十分困惑的單詞:scale。仔細數了一下,scale這個單詞在StyleGAN2論文的正文裡一共出現了11次,參考文獻裡出現了6次(這裡面的論文我還沒有一一閱讀,從字面上看這裡的scale更接近于“規模”的意思),附錄裡出現了15次;同時,以動名詞scaling的形式,在正文裡出現了2次,在附錄裡出現了2次。顯然,這是一個非常重要的單詞,那它到底指的是什麼意思呢?
在常見的計算機用語中,scale比較常見的翻譯一個是“規模”,如:large scale parellel computing通常翻譯為“大規模并行計算”;另外一個是“伸縮、擴充”,如:scalability通常翻譯為“可伸縮性”或“可擴充性”。
另外,根據必應詞典給出的解釋:
scale - 必應詞典
美[skeɪl] 英[skeɪl]
- n.秤;比例尺;範圍;刻度
- v.攀登;到達…頂點;去鱗;刮除牙石
- 網絡縮放;規模;音階
- 變形複數:scales;過去分詞:scaled;現在分詞:scaling;
- 搭配large scale;scale appreciate;small scale;increase scale
把以上這些對scale的翻譯與解釋,代入到StyleGAN2的論文裡,其所表達的含義總是似是而非,以至于對整篇論文的主旨都搞得一頭霧水。
直到有一天,看到一篇名為《多樣本尺度參數的非參數檢驗》的文章,講到統計學裡關于尺度參數的檢驗問題,才豁然開朗,原來論文中的scale就是“尺度”。
在《多樣本尺度參數的非參數檢驗》這篇文章裡,尺度是這樣定義的:尺度參數主要用來描述總體機率分布的離散程度,常用的方差、标準差、平均差等都是關于尺度的參數。
我對尺度的了解如下:
StyleGAN2本質上是通過假圖像生成器generator與真圖像判别器discrimnator之間的對抗,最終使判别器無法判别真假(對于由假圖像和真圖像共同組成的資料集,判别器給出正确标簽的機率為 50%)。其過程表現為兩個神經網絡的權重和偏置不斷調整,使得對于生成器生成的假圖像,判别器判别為假的機率最小,即:生成器神經網絡的運算矩陣所表達的特征期望平均值(度量标準包括:FID、PPL、LPIPS等)逼近真實圖像樣本的平均值,且特征期望方差為最小;同時判别器對真假圖像的混合資料集能給出正确标簽(即:判定真圖像為真,假圖像為假)的機率最大。
在這個過程中,“尺度”就是特征方差、标準差、平均差所代表的機率分布的離散程度。在訓練開始的時候,生成器生成的圖像特征的機率分布是随機的“白噪聲”,運算矩陣不掌握任何輸入樣本所内含的特征資訊,特征方差很大。在訓練的過程中,我們必須保證“尺度”的度量标準始終是不變的,在此前提下不斷通過“梯度下降”優化網絡權重和偏置,在疊代的終點使得特征尺度“收斂”到一個穩定的期望平均值(對于FID、PPL、LPIPS等而言,通常是一個比較小的值)和最小的方差,在視覺上就是在機率分布圖上得到一個足夠窄、足夠高的尖峰,同時這個尖峰所覆寫的面積占到總體機率分布100%的相當大的一個比例。這個過程也可以描述為逐漸發現一個特征聚類中心(尖峰),并且使得這個尖峰越來越明顯,越來越突出;與此同時,把周邊的機率分布也吸引到這個尖峰的附近。
作為名詞,scale可以翻譯為“尺度”;作為動詞,scale或者scaling就可以翻譯為“調整尺度”。調整尺度的含義在于,在訓練過程中,尺度的度量标準會使用各種不同的方法進行計算,在進行數學計算的過程中可能會人為放大或縮小了尺度,是以為了在整個訓練過程中保證尺度度量标準的一緻性,就需要通過縮小或放大來消除數學計算引入的尺度比例的變化,将用于度量的尺度計算結果複原到本階段原始的尺度水準上。
按照以上對于scale這個單詞的了解,我們再來讀StyleGAN2論文,似乎文章的内容就容易了解一些了,舉幾個例子:

翻譯:我們假設液滴僞影是生成器故意為之的結果,生成器會攜帶信号強度資訊偷偷越過執行個體歸一化操作,其方法是:生成一個非常強的、在統計上占有絕對優勢的局部尖峰,生成器就可以在其他地方按照它偏好的方式有效地對信号的尺度大小進行調整。
翻譯:基于輸入的樣式,調制操作對卷積的每個輸入特征圖的尺度進行調整,這可以通過調整卷積權重的尺度而替代性地予以實作。
翻譯:随後的歸一化操作,其目的是将輸出複原到機關标準差。基于公式 2,這可以通過将每個輸出特征圖 j 都乘以 1/σj 來實作。
翻譯:進行優化之前,我們通過映射網絡 f 運作10000次随機的潛碼 z,可以得到 μw= Ez f(z)。我們也可以近似地得到W的尺度,計算的方法是:σw²=Ez ||f(z)-μw||₂²,即算出到幾何中心的歐氏距離平方的平均值。
(完)