天天看點

藝術(圖像風格轉換) A Neural Algorithm of Artistic Style藝術(圖像風格轉換) A Neural Algorithm of Artistic Style

藝術(圖像風格轉換) A Neural Algorithm of Artistic Style

标簽(空格分隔):

論文翻譯

未完成

1.論文翻譯

1.1 課題引入

在繪畫方面,人類已經學會如何将内容和風格完美結合進而畫出一幅複雜的作品。但是目前,對于生成特定風格的圖像這個問題,我們并不能找到一種固定的算法。受深層神經網絡在人臉識别方面表現優秀的啟發,我們可以利用深層神經網絡來建立特定風格的圖像。

1.2 卷積神經網絡(CNN)

1.2.1 簡介

在圖像處理任務中,最強大的深層神經網絡被稱為卷積神經網絡(Convolutional Neural Networks)。它由不同的層組成,每一層都可以了解為一組圖像濾波器(image filters),每一層都從輸入圖像提取特定特征。通過給定層輸出就可以得到特征圖(feature maps)。

1.2.2 卷積神經網絡應用于物體識别的啟發

當卷積神經網絡被訓練在物體識别上時,随着網絡層次的增加,輸入圖像被轉化為越來越關注圖檔的實際内容,而不是具體的像素值。圖一就是每層圖像可視化的示範。是以,我們可以将網絡中高層的特征響應作為圖像的内容表示。

1.3 擷取和可視化風格表達

為了獲得輸入圖像風格的表示,我們使用了一種最初設計用來捕捉紋理資訊的特征空間(feature space)。這個特征空間是在網絡的每一層的濾波器(filters)的響應之上建構的,它包含了不同的過濾器響應在特征圖(feature maps)的空間範圍内的相關性(見方法細節)。通過包含多個層的特征關聯,我們獲得了一個靜态的、多層的輸入圖像的風格表達,它捕捉了圖像的紋理資訊,而不是全局的排列。

和内容一樣,樣式同樣可以可視化(見圖1),我們可以通過我們的特征空間(feature spaces)來建構給定輸入圖像的圖像的樣式表示。從圖中可以看出,從樣式特征重新建構的圖像會産生輸入圖像的紋理化版本,以顔色和局部結構來捕捉它的整體外觀。此外,來自輸入圖像的圖像結構的大小和複雜性也随着層次結構的增加而增加,這一結果可以通過不斷增長的接受域大小和特性的複雜性來解釋。

藝術(圖像風格轉換) A Neural Algorithm of Artistic Style藝術(圖像風格轉換) A Neural Algorithm of Artistic Style

【圖1】

圖像說明:(1)卷積神經網絡:輸入圖像在CNN的每一層被表示為一組經過過濾的圖像,而不同的過濾器的數量随着處理層級的增加而增加,過濾後的圖像的尺寸會因為采樣機制(池化)(例如max-pooling)而減少,進而導緻網絡每層的總計算單元數量減少。

(2)内容重構:圖中可視化了CNN模型中的conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) ‘conv5 1’ (e)這幾層。

(3)風格重構:和前面講的一樣,特征空間包含CNN不同層次的不同特征的關聯,而且是依據CNN每層的不同子集和來建構的,是以能創造出于給定圖像風格相比對的圖像,同時丢棄了全局排列資訊。

這篇論文的關鍵發現是,在神經網絡中,内容和形式的表現是可分離的。是以,我們可以對這兩種表述進行精确的操作,進而産生新的、有感覺意義的圖像。

圖像的合成方法是找到一張圖像,同時比對圖像的内容表現和相應的藝術作品的風格表現(具體細節見方法介紹)。

圖2為作者的實驗成果。

藝術(圖像風格轉換) A Neural Algorithm of Artistic Style藝術(圖像風格轉換) A Neural Algorithm of Artistic Style

【圖2】

樣式是一種多層次的表示,圖二的樣式表示包含整個網絡的層次。樣式也可以更局部地定義,圖三示範了包含更少層次的樣式所産生的效果。從圖中可以看出,當樣式表示與網絡中的高層相比對時,圖像結構會以越來越大的比例進行比對,進而帶來更流暢、更持續的視覺體驗。是以,最好的風格轉換效果通常是通過比對網絡中最高層次的樣式表示(圖3、最後一行)來建立的。

藝術(圖像風格轉換) A Neural Algorithm of Artistic Style藝術(圖像風格轉換) A Neural Algorithm of Artistic Style

【圖三】

當然,圖像的内容和風格不能完全分離,當合成一個圖像的時候,需要把一個圖像的内容和另一個圖像的樣式結合起來,但通常不存在一個完美地同時比對兩個限制的圖像。于是我們需要一個損失函數(loss function),通過調整損失函數參數,我們可以在内容和風格之間進行取舍。

1.4 應用

在我們的示範中,我們以一系列知名的藝術作品呈現出一張特定的照片。這個問題通常出現在計算機視覺的一種叫做非寫實渲染的分支上。概念上最接近的是使用紋理轉換來實作藝術風格轉換的方法,然而這些方法主要依賴于非參數技術來直接操縱圖像的像素表示。相比之下,通過在對象識别技術上訓練的深度神經網絡,我們可以在特征空間中明确地表達出高水準内容。

通過對物體識别進行訓練的深層神經網絡的特征,已經被用于對圖像進行分類識别,以便根據所建立的時間對藝術品進行分類。在那裡,分類器在原始網絡激活的基礎上進行訓練,這些活動都是在内容表示的基礎上進行的。我們推測,将樣式表達轉換為一種靜态的特征空間可能會在風格分類中獲得更好的性能。

總的來說,我們将内容和風格混合的圖像合成方法,提供了一種新的、有趣的工具來研究風格和内容獨立的外觀形象和神經感覺。我們可以設計出新穎的刺激,引入兩個獨立的、有感覺意義的變化源:圖像的外觀和内容。我們設想,這将對大量的關于視覺感覺的實驗研究有用,包括心理實體學、功能成像,甚至是電生理學神經記錄。事實上,我們的工作提供了一種算法,即神經表達可以獨立地捕捉圖像的内容和呈現的風格。重要的是,我們的風格表現形式的數學形式産生了一個清晰的、可驗證的假設,關于形象表象的表象下到單個神經元的層次。這種形式的表達隻是簡單地計算出網絡中不同類型神經元之間的關聯。

1.5 方法

本文提出的結果是在 VGG 網絡的基礎上産生的,該網絡是一種卷積神經網絡,它可以在普通的視覺對象識别任務上與人類的能力相媲美。對于圖像合成,我們發現用平均池來替代最大池操作可以改善梯度流,并且可以得到更加吸引人的結果,這就是為什麼所顯示的圖像是用平均池生成。

對于一個網絡可以分為若幹層,每一層又有若幹非線性的濾波器組,其複雜度随着所處的層數增加而增加。是以,對于一個輸入圖 x⃗  x → ,每一層中濾波器都會對他産生一個響應作為這個圖像的編碼。一個具有 Nl N l 個濾波器的層可以産生 Nl N l 個特征圖像,其尺寸為 Ml M l ( Ml M l 為該圖像的長乘寬)。是以,層 l 的響應可以存在一個矩陣中:

Fl∈RN1∗M1 F l ∈ R N 1 ∗ M 1

其中, Flij F i j l 是第 l 層中第 i 個濾波器對第 j 個位置的響應。為了可視化不同層對圖像的編碼資訊,我們采用對圖像白噪聲梯度下降的方法,以找到與原始圖像的特征響應相比對的另一圖像。是以,我們設 p⃗  p → 為原始圖像, x⃗  x → 為生成圖像 Pl P l 和 Fl F l 分别表示網絡中 l 層的特征,我們定義兩個特征之間的平方誤差損失為:

Lcontent(p⃗ ,x⃗ ,l)=12∑ij(Flij−Plij)2 L c o n t e n t ( p → , x → , l ) = 1 2 ∑ i j ( F i j l − P i j l ) 2

其導函數為:

∂Lcontant∂Flij={(Fl−Pl)0Flij>0Flij<0 ∂ L c o n t a n t ∂ F i j l = { ( F l − P l ) F i j l > 0 0 F i j l < 0

從中可以使用标準誤差反向傳播來計算相對于圖像 x 的梯度。 是以,我們可以改變最初的随機圖像 x⃗  x → ,直到它産生誤差最小的應答層,作為 CNN 原始圖像 p⃗  p → 。圖 1 中的五個内容重構來自原始 VGG 網絡的層 1(a),’conv2 1’(b),’conv3 1’(c),’conv4 1’(d)和’conv5 1’(e)。

在網絡每一層的 CNN 響應之上,我們建立了一個風格表示,計算不同的濾波器響應之間的相關性,其期望值是在輸入圖像的空間範圍内的。 這些特征相關性由格雷姆矩陣 Gl∈RNl∗Nl G l ∈ R N l ∗ N l 給出,其中 Glij G i j l 為矢量化特征映射之間的内積:

Glij=∑kFlikFljk G i j l = ∑ k F i k l F j k l

為了使生成圖像與給定圖像的風格相比對(圖 1,樣式重建),我們使用白噪聲圖像的漸變下降來找到與原始圖像的樣式表示相比對的另一個圖像。 這是通過最小化來自原始圖像的格拉姆矩陣的條目與要生成的圖像的格拉姆矩陣之間的均方距離來完成的。接下來,我們記 a⃗  a → 為原始圖像,x為生成圖像, Al A l 和 Gl G l 分别為網絡層的風格特征響應,則每一層的風格損失為:

El=14Nl2Ml2∑ij(Glij−Alij)2 E l = 1 4 N l 2 M l 2 ∑ i j ( G i j l − A i j l ) 2

其導數為:

∂El∂Flij={14Nl2Ml2(FlT(Gl−Al))ji0Flij>0Flij<0 ∂ E l ∂ F i j l = { 1 4 N l 2 M l 2 ( F l T ( G l − A l ) ) j i F i j l > 0 0 F i j l < 0

則,網絡的風格總損失就為:

Lstyle(a⃗ ,x⃗ )=∑Ll=0wlEl L s t y l e ( a → , x → ) = ∑ l = 0 L w l E l

其中 wl w l 為每一層所占的比重。

最後我們把内容損失和風格損失相加即可:

Ltotal(p⃗ ,a⃗ ,x⃗ )=αLcontent(p⃗ ,x⃗ )+βLstyle(a⃗ ,x⃗ ) L t o t a l ( p → , a → , x → ) = α L c o n t e n t ( p → , x → ) + β L s t y l e ( a → , x → )

其中α和β分别是内容和風格重構的權重因子。這個因素也是由多個網絡層共享的,并且具有非零權重w_l。

繼續閱讀