【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

【2019 arxiv】

Karras, Tero, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. “Analyzing and improving the image quality of stylegan.” arXiv preprint arXiv:1912.04958 (2019).

任務：無條件圖像生成

問題：對StyleGAN中出現的小氣泡的失真現象進行分析

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

本文對StyleGAN模型進行了全面的分析，對原來出現的小氣泡狀的失真現象進行了分析，并提出了改進後的StyleGAN_v2

本文首先對原來的網絡進行進行了改進，将原來在特征圖上進行了modulation和normalization改在了在網絡權重中進行modulation和demodulation，同時對損失函數采用不同的使用頻率，并增加了Path Length的正則化，同時不再使用progress growing的政策，而是在G中使用skip結構，在D中使用residual結構，所有尺度同時訓練，最後還提出了對64-1024尺度的特征圖通道數翻倍的更大的網絡。

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

作者在StyleGAN的基礎上一共提出了五項改進，同時作者發現Perceptual Path Length的結果與人的感覺更相符

Weight domodulation

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

(a)是StyleGAN的模型

(b)是StyleGAN中間的詳細細節

©是對StyleGAN進行了改進

①将noise(B)和bias（b）移到每個block之外（在normalization之後）

②norm和modulation的操作隻需要對方差進行，不需要對均值進行

③在輸入層的bias、noise和norm可以移除

(d)對©中的Instance Normalization進行了改進

©中的modulation是對于特征圖進行的，作者提出可以改為對模型參數進行限制

Modulation:

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

Demodulation:

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

在具體實作時使用group convolution操作

Lazy regularization

當模型有main loss和regularization loss時，對于regularization loss的計算頻率可以更少（例如每更新16個main loss後使用一次regularization loss），在不影響模型效率的同時可以減少計算量和記憶體使用

Path length regularization

為了使得隐向量空間到圖像的映射更加連續，限制每個方向的路徑長度都變小

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

其中w為z在經過8個FC後的隐狀态向量，y=g(w)為生成圖像

a為||y_w^Ty||_2的指數平滑均值

計算時實際使用下式計算

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

不使用Progressive growing方法

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

(a)為StyleGAN中使用的方法，(b)為skip-connection方法，©為residual方法

通過實驗發現在生成器中使用skip方法，在判别器中使用residual方法的效果更好

Large Network

作者同時實驗發現在訓練的不同階段，不同尺度的圖像對最終生成圖像的影響不同，但是在改進後的StyleGAN中發現，512尺度的圖像的影響度比1024尺度的大，是以認為可能是網絡容量不夠導緻的

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

為此提出了将64-1024尺度階段中所有特征圖的通道數翻倍

資料集

FFHQ（1024 * 1024）

LSUN Car（512 * 384）

LSUN Cat（256 * 256）

LSUN Church（256 * 256）

LSUN Horse（256 * 256）

評價名額

①FID

②Perceptual Path Length（PPL）

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

其中w=f(z)表示經過FC後的在隐狀态的向量，然後對兩個w之間進行插值，計算每隔一小步後生成的兩張圖像，在所有中間特征層的特征距離的均值，再對所有區間進行求和，作為這兩個w對之間的距離，再采樣100000個z對進行計算

③Precision&Recall

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

ϕ ϕ ϕ為一個圖像的特征， Φ g Φ_g Φg 表示生成圖像組成的特征集合， Φ r Φ_r Φr 表示真實圖像組成的特征集合

f判斷某一圖像特征是否在某一集合特征中任意特征的最k鄰近集之中

實驗

①将生成圖像或真實圖像傳回到W空間，然後再重新生成圖像，并計算前後兩張圖像之間的距離（使用LPIPS距離）

其中，傳回到W空間時，通過反向傳播方法同時求出最優的W空間向量和輸入噪聲n

損失函數如下：

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

後一項是為了限制噪聲符合正态分布

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

重建圖像及最優化噪聲

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

重建前後圖像的LPIPS距離

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

重建圖像的對比

②生成圖像

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

【論文閱讀】Analyzing and Improving the Image Quality of StyleGAN

Weight domodulation

不使用Progressive growing方法

Large Network

資料集

評價名額

實驗

繼續閱讀

論文閱讀：Fast R-CNN1、論文總述2、RCNN和SPPnet的缺點3、SPPnet不能更新SPP層之前的參數的原因4、Multi-task loss5、Truncated SVD for faster detection6、Which layers to fine-tune?（檢測時從哪個層開始finetune）7、 Does multi-task training help?參考文獻

沒有跟上AI，可能你就錯過了下一個風口。萬物皆可生成是AIGC的主要特點，這就意味着，人人利用AI皆可創作，各行各業的人

強化學習論文筆記：Real-Time Reinforcement Learning簡介問題方法SAC作為Baseline，Metrics是平均累計回報。總結

[論文閱讀：姿态識别&Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV1. 摘要2.主要工作3. Contributions4. 架構總覽 4.1. Architecture 5. Experiments

論文分享（三）——權重采樣音頻對抗樣本攻擊一.介紹二.相關工作三.背景四.方法五.實驗結果六.總結

Few-Shot Object Detection via Sample Processing

Lattice-BERT 論文閱讀Motivation 創新點

CVPR2020場景文字資料增強（python實作）

文獻閱讀--Certified Adversarial Robustness via Randomized Smoothing1 概述2 問題的引出3 Randomized smoothing

新手如何快速入門車輛控制領域？（附帶讀論文的工具）

Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解

論文閱讀——Parallel Multi-Resolution Fusion Network for Image Inpainting網絡結構損失函數

Glove公式推導

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

目标檢測系相關論文閱讀基礎網絡檢測算法架構優化方向

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結