天天看點

Image style transfer

論文Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

圖像風格變換的任務是,把一種風格域S1的圖像轉換成另一種風格域S2的圖像。風格變換的同時儲存圖像的内容不變。

GAN火起來之後,有一些用GAN做圖像風格變換的應用,比如Cycle GAN/Dual GAN/Disco GAN。他們的一般結構是使用兩對G與D的組合,以確定轉換風格而不變換内容。結構略龐大了一些,訓練不友善。

而要提到的這批論文,想法和實作都很簡單,轉換效果也是很不錯的。

要解決的問題

ok,先吐槽一下其它style transfer方法的弊端

1. 模型複雜,訓練難

2. 不能完成任意風格變換。比如,訓練時使用兩中風格S1,S2,那麼該模型能做的也就是這兩種風格間的變換。

3. 有一些方法,依靠淺層的特征,比如直方圖統計,而不能抓住圖像的語義資訊。

作者主要受到了兩點啟發

1. 論文Image Style Transfer Using Convolutional Neural Networks,在特征空間操作風格的變換。

2. Batch Normalization,Instance Normalization

方法

Image style transfer

過程可以描述為:把content image和style image編碼到同一特征空間;然後在特征空間給予content image的特征以style image特征的(統計)風格;最後再把特征解碼成圖像。

編碼encoder

作者直接使用預訓練的VGG模型,将圖像編碼到特征空間。具體的使用網絡中的哪層特征,可以實驗測試。論文使用

relu4_1

層。

解碼decoder

訓練學習一個CNN解碼器,把特征恢複成圖像。論文設計的解碼器是編碼器encoder成鏡像結構。

AdaIN

先來回顧一下,BN:

Image style transfer

IN:

Image style transfer
Image style transfer

他們做的是把一種高斯分布拉到另一種高斯分布,不同之處隻是統計針對的對象略有差别,前者的樣本是批量圖像的一個通道,後者的樣本是一張圖像的某個通道。

作者擴充了IN為自适應的IN:

Image style transfer

很簡單吧,就是把content image的feature分布拉倒style image的feature分布,這樣就在特征空間完成了風格變換。而由于stlye image可以任意輸入,可以實作任意風格變換。

loss & train

loss包含兩部分,用來限制風格與内容:

Image style transfer
Image style transfer
Image style transfer

其中content loss,參考[1],使用特征空間的歐式距離。不直接使用圖像空間的歐式距離是因為[1]的結論:高層的特征能得到物體以及其在輸入圖檔中的排列的high-level資訊,而不用太多的限制像素的值。

(但是也有GAN的論文,content loss使用的就是生成圖像與label圖像像素見得均方誤差。)

style loss中,φi表示encoder的某一層,考慮了encoder中多個層中的統計差别。

results

1 quality

與幾種方法的對比

Image style transfer

此方法的轉換效果很不錯,取得了與’Ulyanov‘[2]相當的成績( 其方法針都針對各個style訓練過,是single-style變換,而本文的方案是第一次遇到這種style)

2.speed

測試階段,時間消耗在三個地方:編碼content圖像,編碼style圖像,解碼特征。

使用GPU,(512x512 pixels)整個流程耗時約0.065s;如果隻想把圖像轉換成某一種風格,則可以省略重複對style image的編碼,效率提高。

3.轉換風格的力度可控

當然,在loss函數中,控制參數lamda可以做到控制力度;

僅僅在測試階段,控制

Image style transfer

其實就是控制,中間合成的變換風格後的特征,有多大部分是AdaIN變換的,有多大部分是原圖像的,很容易實作控制風格力度。

4.位置和顔色可控

控制變換後的圖像的顔色分布,隻是在style image圖像加了一步預處理,将其的顔色與content的顔色分布比對。

總結

該論文的方法相比state of art的其他單一風格轉換的模型效果略遜一點,但也隻是一點點。突出的優點是該方法簡單,而且很靈活,計算速度可以達到real time;能實作任意風格的轉換。

end.

[1] Image Style Transfer Using Convolutional Neural Networks

[2] Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis.

繼續閱讀