Paper: Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
Author: Alec Radford, et al。
Publication: arXiv, 2015。
文章目錄
- 1 背景
- 2 創新點
- 3 核心方法
-
- 3.1 為穩定DCGAN的訓練作出的選擇
- 3.2 實驗經驗的參數選擇
- 3.3 資料集的選擇
- 4 DCGAN能力的經驗驗證
-
- 4.1 使用GAN分類CIFAR-10來作為特征提取器
- 4.2 使用GAN分類SVHN來作為特征提取器
- 5 網絡内部的可視化分析
-
- 5.1 内部空間分析
- 5.2 判别器特征的可視化
- 5.3 生成器的特征表達
-
- 5.3.1 試圖不去建構特定的物體
- 5.3.2 人臉樣本的向量計算
- 6 将來的工作
1 背景
-
目前無監督的表征學習被廣泛的研究。
比較經典的有KNN等聚類算法;後有人提出了基于卷積的自編碼器;還有深度信念網絡也被用于層次的表征學習。
-
生成自然的圖像。
非參模型主要是将大量的圖像用來作比對的思路;
參數模型被廣泛地研究,比如有變分采樣、拉普拉斯圖像金字塔擴充方法等,但是目前似乎都沒有獲得較大的成功。
-
CNN的内部可視化
如何将黑盒CNN的内部進行可視化和具體分析也是一個問題。
2 創新點
- 針對CGAN的限制和不穩定的訓練,提出DCGAN結構。
- 使用訓練好的判别器作圖分類任務,達到了比别的無監督方法更好的精度。
- 将學習到特定目标部分特征的GAN的濾波器可視化展示。
- 展示了生成器在樣本生成方面的一些特性。
3 核心方法
3.1 為穩定DCGAN的訓練作出的選擇
- 使用strided convoluations(判别器中)和fraction-strided convolutions(生成器中),取代了會影響穩定性的各種池化層。
- 使用批正則化穩定學習訓練。
- 為了達到更深的結構去除了全連接配接層。
- 生成器中的輸出層使用Tanh激活函數,其它層使用了ReLu激活函數。
- 判别器都使用了LeakyReLU激活函數。
3.2 實驗經驗的參數選擇
預訓練:無
梯度下降方式:SGD
批的大小:128
權重初始化方式:0.02std的正态分布
LeakyReLU的斜率:0.2
優化器:Adam
學習率:0.0002
動量項beta1:0.5
其他基本為預設值。
3.3 資料集的選擇
-
LSUN
卧室資料集,包含了超過三百萬個訓練樣本。
證明DCGAN不是通過過拟合和記憶性來生成高品質的樣本。
進一步的,作者為了降低生成器對輸入樣本進行記憶的可能性,還使用了基于3072-128-3072去噪dropout和RELU的自編碼器,在32*32的降采樣的訓練樣本上進行學習。
-
Faces
通過dbpedia擷取的名字搜尋并在随機的網站上擷取人臉圖像,得到了一萬個人的三百萬張圖檔。
然後使用opencv的人臉檢測器進行檢測,傳回了350,000個face boxes。用其進行訓練。
不使用資料增強。
-
IMAGENET-1K
使用32*32的大小,無資料增強。
下圖是DCGAN生成器的主要模型結構:
4 DCGAN能力的經驗驗證
4.1 使用GAN分類CIFAR-10來作為特征提取器
一種典型的評估無監督學習算法的技術就是将其作為特征提取器應用于監督資料,然後評估利用這些特征進行拟合的線性模型的表現。
将從Imagenet-1k上進行預訓練的網絡,結合SVM,用于CIFAR-10的分類,結果如下:
可以看出,DCGAN用了較少的單元數卻達到了較好的結果。
4.2 使用GAN分類SVHN來作為特征提取器
也使用了StreetView House Numbers dataset(SVHN)進行了實驗。
5 網絡内部的可視化分析
5.1 内部空間分析
5.2 判别器特征的可視化
5.3 生成器的特征表達
5.3.1 試圖不去建構特定的物體
去掉“視窗”濾波器,看看會如何?
5.3.2 人臉樣本的向量計算
向量計算的思想是,假設每一種概念如“男人”、“女人”、“汽車”等都由一個特定的向量來表達,那麼會産生一種有意思的向量運算。
即向量的概念在某種層面“相加”了,如:
與 “男人”向量 + “女人”向量 + “國王”向量 的結果最接近的向量是“女王”這個向量。
作者使用Z特征,以這種思想做出的實驗結果如下:
6 将來的工作
作者提出,将來的工作可以着眼于:
- 解決該模型仍舊存在的少量不穩定問題。
- 将本研究擴充到視訊和語言等領域。
- 深度學習潛在空間的學習。