論文閱讀-Generative Image Inpainting with Contextual Attention

論文：論文位址http://openaccess.thecvf.com/content_cvpr_2018/papers/Yu_Generative_Image_Inpainting_CVPR_2018_paper.pdf

github開源代碼:

tensorflow:https://github.com/JiahuiYu/generative_inpainting

pytorch:https://github.com/WonwoongCho/Generative-Inpainting-pytorch

摘要：

最近基于深度學習的方法已經顯示出在圖像中修複大的缺失區域的挑戰性任務的是有希望的結果。這些方法可以生成視覺上合理的圖像結構和紋理，但通常會産生扭曲的結構或與周圍區域不一緻的模糊紋理。這主要是由于卷積神經網絡明顯地從遠處空間位置借用或複制資訊的無效性。另一方面，當需要從周圍區域借用紋理時，傳統的紋理和塊合成方法特别适合。通過這些觀察，我們提出了一種新的基于深度生成模型的方法，它不僅可以合成新穎的圖像結構，還可以明确利用周圍的圖像特征作為網絡訓練期間的參考，以做出更好的預測。該模型是一個前饋，完全卷積神經網絡，可以在任意位置處理具有多個孔的圖像，并且在測試時間内具有可變大小。在包括人臉（CelebA，CelebA-HQ），紋理（DTD）和自然圖像（ImageNet，Places2）在内的多個資料集上的實驗表明，我們提出的方法比現有方法産生更高品質的修複結果。代碼，示範和模型可在以下網址獲得：https：//github.com/JiahuiYu/generative_inpainting。

1. 引言

填充圖像的缺失像素（通常稱為圖像修複或完成）是計算機視覺中的重要任務。它在照片編輯，基于圖像的渲染和計算攝影方面有很多應用[3,25,30,31,36,41]。圖像修複的核心挑戰在于合成與現有圖像相關的缺失區域的視覺逼真和語義合理像素。

早期作品[3,14]試圖使用類似于紋理合成的思想來解決問題[10,11]，即通過将背景塊比對和複制到從低分辨率到高分辨率或從孔邊界傳播的孔中。這些方法尤其适用于北京修複任務，并廣泛應用于實際應用[3]。然而，由于他們假設在背景區域的某處可以找到缺失的塊，是以對于具有複雜的，非重複的結構（例如面部，物體）的修複區域的挑戰性情況，它們不能産生幻覺新穎的圖像内容。而且，這些方法無法捕獲進階語義。

深度卷積神經網絡（CNN）和生成對抗網絡（GAN）[12]的快速進展啟發了最近的作品[17,27,32,41]，将修複制定為條件圖像生成問題，其中進階識别和低級别像素合成被制定成卷積編碼器 - 解碼器網絡，與對抗網絡共同訓練以促進生成和現有像素之間的一緻性。這些作品被證明可以在高度結構化的圖像中生成合理的新内容，例如人臉，物體和場景。

不幸的是，這些基于CNN的方法經常産生邊界僞影，扭曲的結構和與周圍區域不一緻的模糊紋理。我們發現這可能是由于卷積神經網絡在模拟遠距離上下文資訊和空洞區域之間的長期相關性方面的無效性。例如，為了允許像素受到64像素的内容影響，它需要至少6層3×3卷積，具有擴張因子2或等效[17,22]。然而，擴張的卷積樣本來自規則和對稱網格的特征，是以可能無法權衡感興趣的特征而不是其他特征。請注意，最近的工作[40]試圖通過優化生成的更新檔和已知區域中的比對更新檔之間的紋理相似性來解決外觀差異。雖然提高了視覺品質，但是這種方法被數百個梯度下降疊代拖拽，并且花費幾分鐘來處理GPU上分辨率為512×512的圖像。

我們提出了一個統一的前饋生成網絡，其具有用于圖像修複的新穎的上下文注意力層。我們建議的網絡包括兩個階段。第一階段是一個簡單的擴張卷積網絡，它訓練有重建損失以粗略地丢失缺失的内容。上下文注意力集中在第二階段。上下文關注的核心思想是使用已知塊的特征作為卷積過濾器來處理生成的塊。它是通過卷積設計和實作的，用于将生成的塊與已知的上下文塊比對，通道級的softmax用于權衡相關塊和反卷積以使用上下文塊重建生成的塊。上下文注意力子產品還具有空間傳播層以鼓勵注意力的空間一緻性。為了讓網絡産生幻覺新内容，我們還有另一個與上下文注意路徑并行的卷積路徑。将這兩個路徑合并喂給單個解碼器以獲得最終輸出。整個網絡以端到端的方式進行重建損失和兩次Wasserstein GAN損失訓練[1,13]，其中一個判别器看全局區域，而另一個判别器看缺失區域的局部塊。

對包括人臉，紋理和自然圖像在内的多個資料集的實驗表明，所提出的方法比現有方法産生更高品質的修複結果。示例結果如圖1所示。

我們的貢獻總結如下：

我們提出了一種新穎的上下文注意力層，以明确地參與遠處空間位置的相關特征塊。
我們介紹了幾種技術，包括修複網絡增強，全局和局部WGAN [13]，以及空間折扣重建損失，以提高基于目前最先進的生成圖像修複網絡的訓練穩定性和速度[17]。是以，我們能夠在一周而不是兩個月内訓練網絡。
我們統一的前饋生成網絡在各種具有挑戰性的資料集上實作了高品質的修複效果，包括CelebA人臉[28]，CelebAHQ人臉[22]，DTD紋理[6]，ImageNet [34]和Places2 [43]。

2. 相關工作

2.1 圖像修複

用于圖像修複的現有工作可以主要分為兩組。第一組代表傳統的基于擴散或基于塊的方法，具有低級特征。第二組試圖通過基于學習的方法來解決修複問題，例如，訓練深度卷積神經網絡以預測缺失區域的像素。

傳統的擴散或基于塊的方法，例如[2,4,10,11]，通常使用變分算法或塊相似性來将資訊從背景區域傳播到孔。這些方法适用于靜态紋理，但僅限于靜态資料，如自然圖像。 Simakov等人。 [36]提出了一種基于雙向塊相似性的方案，以更好地模拟非靜态視覺資料，以重新定位和修複應用程式。然而，塊相似性的密集計算[36]是非常昂貴的操作，這禁止了這種方法的實際應用。為了應對這一挑戰，已經提出了一種稱為PatchMatch [3]的快速最近鄰域算法，它已經為包括修複在内的圖像編輯應用展示了重要的實用價值。

最近，深度學習和基于GAN的方法已成為圖像修複的有前途的範例。最初的努力[23,39]訓練卷積神經網絡用于小區域的去噪和修複。上下文編碼器[32]首先訓練深度神經網絡以修複大洞。訓練在128×128圖像中完成64×64的中心區域，以l2像素重建損失和生成對抗性損失為目标函數。最近，Iizuka等人。 [17]通過引入全局和局部判别器作為對抗性損失來改進它。全局判别器評估完成的圖像作為整體是否連貫的，而局部判别器關注于以生成的區域為中心的小區域以強制本地一緻性。此外，Iizuka等人。 [17]在修複網絡中使用擴張卷積來代替上下文編碼器中采用的通道方式完全連接配接層，兩種技術都被提出用于增加輸出神經元的感受域。同時，有幾項研究側重于生成性面部修複。 Yeh等人。 [41]在損壞的圖像的潛在空間中搜尋最接近的編碼并解碼以獲得完成的圖像。Li等人。 [27]為面部完成引入額外的面部解析損失。然而，這些方法通常需要後處理步驟，例如圖像混合操作，以在孔邊界附近實施顔色一緻性。

一些作品[37,40]遵循圖像樣式[5,26]的想法，将修複作為優化問題。例如，Yang等人。 [40]提出了一種基于圖像内容和紋理限制的聯合優化的多尺度神經塊合成方法，它不僅保留了上下文結構，而且通過使用深度分類網絡來比對和調整塊與最相似的中間層特征相關性來産生高頻細節。該方法顯示出有前景的視覺結果，但由于優化過程而非常慢。

2.2 注意力子產品

在深度卷積神經網絡中已經有許多關于學習空間注意力的研究。在這裡，我們選擇回顧一些與提議的上下文關注模型相關的代表性問題。 Jaderberg等。 [19]首先提出一種稱為空間變換網絡（STN）的參數空間注意子產品，用于對象分類任務。該模型具有一個定位子產品，用于預測全局仿射變換到扭曲特征的參數。但是，此模型假設全局轉換，是以不适合模組化塊級注意。周等人。 [44]引入外觀流程以預測偏移矢量，該偏移矢量指定應當移動輸入視圖中的哪些像素以重建用于新穎視圖合成的目标視圖。根據我們的實驗，該方法被證明對于比對相同物體的相關視圖是有效的，但是在預測從背景區域到孔的流場方面是無效的。最近，Dai等人。 [8]和Jeon等人。 [20]建議學習空間注意力或主動卷積核心。這些方法可以更好地利用資訊在訓練期間使卷積核心形狀變形，但是當我們需要從背景中借用精确特征時，這些方法可能仍然有限。

3. 改進的生成修複網絡

我們首先通過對最近最先進的修複模型[17]進行複現和改進來建構我們的生成圖像修複網絡，該模型已經顯示出有希望的視覺效果，用于修複人臉圖像，建築立面和自然圖像。

3.1 Coarse-fine 網絡架構

我們改進模型的網絡架構如圖2所示。我們遵循與[17]中相同的輸入和輸出配置進行訓練和推理，即生成器網絡采用填充了白色像素的圖像孔和二進制掩模訓示孔區域作為輸入對，并輸出最終完成的圖像。我們将輸入與相應的二進制掩模配對，以處理具有可變大小，形狀和位置的孔。網絡的輸入是256×256圖像，在訓練期間随機采樣矩形缺失區域，并且訓練的模型可以拍攝具有多個孔的不同尺寸的圖像。

在圖像修複任務中，感受野的大小應該足夠大，Iizuka等人。 [17]為此目的采用擴張卷積。為了進一步擴大感受域并穩定訓練，我們引入了兩個粗到細網絡架構，其中第一個網絡進行初始粗略預測，第二個網絡将粗略預測作為輸入并預測精細結果。粗略網絡用明确的重建損失進行訓練，而細化網絡用重建以及GAN損失進行訓練。直覺地，細化網絡看到比具有缺失區域的原始圖像更完整的場景，是以其編碼器可以比粗網絡學習更好的特征表示。這種兩階段網絡架構在精神上與殘留學習[15]或深度監督[24]相似。

此外，我們的修複網絡采用細和深的方案設計，以提高效率，并且參數少于[17]中的參數。在層實作方面，我們對所有卷積層使用小填充并删除批量标準化層[18]（我們發現它會降低顔色一緻性）。此外，我們在[17]中使用ELU [7]作為激活函數而不是ReLU，并剪切輸出濾波器值而不是使用tanh或sigmoid函數。此外，我們發現GAN訓練的全局和局部特征表示分離比[17]中的特征級聯更好。更多細節可以在補充材料中找到。

論文閱讀-Generative Image Inpainting with Contextual Attention

圖2：改進的生成修複網絡結構

3.2 Global and local Wasserstein GANs

與先前依賴DCGAN [33]進行對抗性監督的生成性修複網絡[17,27,32]不同，我們建議使用WGAN-GP的修改版本[1,13]。我們将WGAN-GP損失附加到第二階段細化網絡的全球和本地輸出，以實作全局和局部的一緻性，受到[17]的啟發。衆所周知，WGAN-GP損失在圖像生成任務方面優于現有的GAN損失，并且當它們都使用L1距離度量時，它與L1重建損失相結合時效果很好。

具體而言，WGAN使用Earth - Mover距離（a.k.a.Wasserstein-1）距離" W ( P r , P g ) W(Pr,Pg) W(Pr,Pg)"來比較生成的和實際的資料分布。它的目标函數是通過應用建構的Kantorovich-Rubinstein二進制性構造的函數：

論文閱讀-Generative Image Inpainting with Contextual Attention

其中D是1-Lipschitz函數的集合，Pg是由x~ = G（z）隐式定義的模型分布。 z是生成器的輸入。

Gulrajani等。 [13]提出了一個帶有梯度懲罰項的WGAN的改進版本。

論文閱讀-Generative Image Inpainting with Contextual Attention

其中x是從分布Pg和Pr采樣的點之間的直線采樣的。原因是直線上所有點x=(1-t)*x+t*x的D*梯度都應該指向最近的采樣點x~，意味着

論文閱讀-Generative Image Inpainting with Contextual Attention

對于圖像修複，我們隻嘗試預測孔區域，是以梯度損失應僅應用于孔内的像素。這可以通過梯度和輸入掩碼m的乘法來實作，如下所示：

論文閱讀-Generative Image Inpainting with Contextual Attention

其中掩碼值為0表示缺失像素，1表示其他地方。在所有實驗中λ設定為10。

我們使用像素方式L1損失（而不是[17]中的均方誤差）和WGAN對抗性損失的權重和。請注意，在原始空間中，WGAN中的Wasserstein-1距離基于L1真實圖像。

論文閱讀-Generative Image Inpainting with Contextual Attention

其中(Pr,Pg)表示所有連接配接分布y(x,y)的集合，其邊緣分别為Pr和Pg。直覺地，像素方式的重建損失直接将空洞回歸到目前真實圖像，而WGAN隐含地學習比對潛在的正确圖像并用對抗性梯度訓練生成器。由于兩種損失均以像素為機關測量L1距離，是以組合損失更容易訓練并使優化過程更穩定。

3.3 Spatially discounted reconstruction loss

修複問題涉及像素的幻覺，是以對于任何給定的環境都可能有許多合理的解決方案。在具有挑戰性的情況下，合理的完整圖像可能具有與原始圖像中的塊或像素，這些塊和像素是非常不同的塊或像素。由于我們使用原始圖像作為計算重建損失的唯一基礎事實，是以強制執行這些像素中的重建損失可能會誤導卷積網絡的訓練過程。

直覺地，孔邊界附近的缺失像素比靠近孔中心的像素具有更少的模糊度。這類似于強化學習中觀察到的問題。當長期獎勵在采樣過程中有很大的變化時，人們會使用時間貼現的獎勵而不是采樣的軌迹[38]。受此啟發，我們使用權重掩模M引入空間折扣的重建損失。掩模中每個像素的權重計算為γ1，其中l是像素與最近的已知像素的距離。在所有實驗中γ設定為0.99。

在[32,41]中也探讨了類似的權重思想。在[41]中提出的重要性權重上下文損失通過固定視窗内的未損壞像素的比率（例如7×7）在空間上權重。 Pathak等人。 [32]預測一個略大的塊，邊界區域的損失權重（×10）更高。對于修補大孔，建議的折扣損失對于改善視覺品質更有效。我們在實施中使用貼現的L1重建損失。

通過以上所有改進，我們的基線生成修複模型收斂速度比[17]快得多，進而獲得更準确的修複結果。對于Places2 [43]，我們将訓練時間從[17]報告的11,520 GPU小時（K80）減少到120 GPU小時（GTX 1080），這幾乎是100倍加速。而且，不再需要後處理步驟（圖像混合）[17]。

4. Image Inpainting with Contextual Attention

卷積神經網絡逐層處理具有局部卷積核的圖像特征是以對于從遠處空間位置借用特征是無效的。為克服這一局限，我們考慮了注意機制，并在深層生成網絡中引入了一個新的上下文注意層。在本節中，我們首先讨論上下文注意層的細節，然後讨論如何将它內建到我們的統一修複網絡中。

4.1 Contextual Attention

上下文注意層學習從已知背景塊借用或複制特征資訊的位置以生成缺失塊。它是可微分的，是以可以在深度模型中進行訓練，并且可以完全卷積，這允許在任意分辨率下進行測試。

論文閱讀-Generative Image Inpainting with Contextual Attention

圖3：上下文注意層的插圖。首先，我們使用卷積來計算前景塊與背景塊（作為卷積濾波器）的比對分數。然後我們應用softmax來比較并獲得每個像素的注意力得分。最後，我們通過對注意力得分進行反卷積來重建具有背景塊的前景塊。上下文注意層是可區分的并且是完全卷積的。

論文閱讀-Generative Image Inpainting with Contextual Attention

圖4：基于第一編碼器編碼器網絡的粗略結果，引入兩個并行編碼器，然後合并到單個解碼器以獲得修複結果。對于注意力圖的可視化，顔色訓示前景中每個像素的最感興趣的背景塊的相對位置。例如，白色（顔色編碼圖的中心）表示像素在自身上呈現，在左下方呈粉紅色，綠色表示右上角。

Match and attend

我們考慮将缺失像素（前景）的特征與周圍環境（背景）比對的問題。如圖3所示，我們首先在背景中提取更新檔（3×3）并将它們重新整形為卷積濾波器。為了比對前景塊{fx,y}與背景{bx’,y’}，我們用歸一化的内積（餘弦相似度）進行測量

論文閱讀-Generative Image Inpainting with Contextual Attention

其中Sx,y,x’,y’表示以背景(x’,y’)和前景(x,y)為中心的塊的相似性。然後，我們使用縮放的softmax沿x’y’次元權衡相似性，以獲得每個像素的注意力得分s*x,y,x’,y’ = softmax x’,y’(λsx,y,x’,y’)，其中λ是常數值。這有效地實作為卷積和通道方式softmax。最後，我們重新使用提取的塊{bx’,y’}作為反卷積濾波器來重建前景。重疊像素的值被平均。

Attention propagation

我們通過傳播（融合）進一步激勵注意力的一緻性。一緻性的想法是前景塊的移位可能對應于背景塊中的相同移位以引起注意。例如，Sx,y,x’,y’通常具有接近的值，其中Sx+1,y,x’+1,y’。為了模拟和鼓勵注意力圖的一緻性，我們進行左右傳播，然後進行自上而下的傳播，核心大小為k。以左右傳播為例，我們獲得了新的注意力得分：

論文閱讀-Generative Image Inpainting with Contextual Attention

傳播有效地實作為具有機關矩陣作為核的卷積。注意力傳播顯着改善了測試中的修複效果，并豐富了訓練中的漸變。

Memory efficiency

假設在128×128特征圖中缺少64×64區域，則從背景中提取的卷積濾波器的數量是12,288。這可能會導緻GPU的記憶體開銷。為了克服這個問題，我們引入了兩個選項：1）提取具有跨步的背景更新檔以減少濾波器的數量和2）在卷積之前縮小前景輸入的分辨率并在傳播之後放大注意力映射圖。

4.2 Unified Inpainting Network

為了整合注意力子產品，我們引入了兩個并行編碼器，如圖4所示，基于圖2.底部編碼器專門用于逐層（擴散）卷積的幻覺内容，而頂部編碼器則嘗試關注感興趣的背景特征。來自兩個編碼器的輸出特征被聚合并饋送到單個解碼器以獲得最終輸出。為了解釋上下文關注，我們以圖4所示的方式對其進行可視化。我們使用顔色來訓示每個前景像素最感興趣的背景塊的相對位置。例如，白色（顔色編碼圖的中心）表示像素在其自身上，左下方為粉紅色，上方為綠色。對于不同的圖像，偏移值被不同地縮放以最佳地可視化最有趣的範圍。

對于訓練，給定原始圖像x，我們在随機位置采樣一個二進制圖像掩模m。輸入圖像z從原始圖像中被破壞為z = x *m。修補網絡G将z和m的連接配接作為輸入，并輸出具有與輸入相同大小的預測圖像x‘=G(z,m)。将x’的掩蔽區域粘貼到輸入圖像，我們得到修複輸出x~ = z + x’ * (1-m)。輸入和輸出的圖像值線性縮放為[-1, 1]在所有實驗中。訓練程式如算法1所示。

論文閱讀-Generative Image Inpainting with Contextual Attention

5.Experiments

我們在四個資料集上評估建議的修複模型，包括Places2 [43]，CelebA面[28]，CelebAHQ面[22]，DTD紋理[6]和ImageNet [34]。

Qualitative comparisons

首先，我們在圖5中顯示，我們的基線模型通過比較我們的輸出結果和從主要論文中複制的結果，與先前的最新技術[17]産生可比較的修複結果。請注意，我們的基線模型沒有執行後處理步驟，而圖像混合應用于[17]的結果。

接下來，我們使用最具挑戰性的Places2資料集，通過與我們從先前的最新技術[17]擴充的基線兩階段模型進行比較，評估我們的完整模型與上下文關注。對于訓練，我們使用分辨率為256×256的圖像，最大孔尺寸為128×128，如4.2節所述。兩種方法都基于完全卷積神經網絡，是以可以在不同分辨率的圖像上填充多個孔。驗證集中各種複雜場景的可視化比較如圖6所示。為了測試的一緻性，這些測試圖像的大小均為512×680。報告的所有結果都是來自訓練模型的直接輸出，而不使用任何後處理。對于每個示例，我們還在最後一列中可視化我們模型的潛在注意力圖（顔色編碼在第4.2節中進行了解釋）。

如圖所示，我們具有上下文關注的完整模型可以利用周圍的紋理和結構，進而生成更逼真的結果，并且比基線模型更少的僞像。注意力圖的可視化揭示了我們的方法知道上下文圖像結構，并且可以自适應地從周圍區域借用資訊以幫助合成和生成。

在圖7中，我們還展示了我們在CelebA，DTD和ImageNet上訓練的完整模型的一些示例結果和注意圖。由于篇幅限制，我們在補充材料中包含了這些資料集的更多結果

Quantitative comparisons

與其他圖像生成任務一樣，圖像修複缺乏良好的定量評估名額。為評估GAN模型而引入的Inception score[35]不是用于評估圖像修複方法的良好度量，因為修複主要集中在背景填充（例如，對象移除情況），而不是其生成各種類對象的能力。

由于存在許多與原始圖像内容不同的可能解決方案，是以在重建誤差方面的評估度量也不是完美的。盡管如此，我們在Places2上的驗證集上的平均L1誤差，平均L2誤差，峰值信噪比（PSNR）和總變差（TV）損失方面報告我們的評估僅供參考表1所示。如圖所示。在表中，基于學習的方法在L1，L2錯誤和PSNR方面表現更好，而直接複制原始圖像更新檔的方法具有更低的總變異損失。

我們的完整模型總共有2.9M參數，大約是[17]中提出的模型的一半。模型在TensorFlow v1.3，CUDNN v6.0，CUDA v8.0上實作，并在具有CPU Intel（R）Xeon（R）CPU E5-2697 v3（2.60GHz）和GPU GTX 1080 Ti的硬體上運作。我們的完整模型在GPU上每幀0.2秒，在CPU上每幀1.5秒，平均分辨率為512×512的圖像。

5.1 Ablation study

Contextual attention vs. spatial transformer network and appearance flow

我們研究了與其他空間關注子產品相比的情境關注的有效性，包括用于圖像修複的外觀流[44]和空間變換網絡[19]。對于外觀流[44]，我們在相同的架構上訓練，除了用卷積層替換上下文關注層以直接預測2-D像素偏移作為注意。如圖8所示，對于非常不同的測試圖像對，外觀流傳回非常相似的注意力圖，這意味着網絡可能陷入不良的局部最小值。為了改善外觀流動的結果，我們還研究了多個注意力聚集和基于塊的注意力的想法。這些想法都不能很好地改善修複效果。此外，我們在圖8的架構中将空間變換器網絡[19]的結果顯示為注意力。如圖所示，基于STN的注意力不适用于修複，因為其全局仿射變換太粗糙。

Choice of the GAN loss for image inpainting

我們的修複架構極大地受益于其學習曲線和更快/更穩定的收斂行為所證明的WGAN-GP損失。使用DCGAN訓練的同一模型有時會折疊到修複任務的有限模式，如圖9所示。我們還嘗試了LSGAN [29]，結果更糟。

Essential reconstruction loss

我們還進行了測試，如果我們可以放棄L1重建損失并純粹依賴對抗性損失（即改進的WGAN）以産生良好的結果。為了得出結論，我們訓練我們的修複模型，在細網絡中沒有L1重建損失”。我們的結論是像素方式的重建損失雖然趨于使結果模糊，但卻是圖像修複的基本要素。重建損失有助于捕獲内容結構，并作為訓練GAN的強大正則化術語。

Perceptual loss, style loss and total variation loss

我們還沒有發現感覺損失（VGG特征的重建損失），風格損失（在VGG特征上計算的Gram矩陣的Frobenius範數）[21]和總變差（TV）損失在我們的架構中為圖像修複帶來了顯着的改進，是以沒用過。

6.Conclusion

我們提出了一個從粗到精的生成圖像修複架構，并介紹了我們的基線模型以及具有新穎的上下文關注子產品的完整模型。我們通過學習用于明确比對和參與相關背景更新檔的特征表示，顯示了上下文關注子產品顯着改善了圖像修複結果。作為未來的工作，我們計劃使用類似于GAN漸進式增長的想法将方法擴充到高分辨率的修複應用[22]。所提出的修複架構和上下文關注子產品也可以應用于條件圖像生成，圖像編輯和計算攝影任務，包括基于圖像的渲染，圖像超分辨率，引導編輯和許多其他任務。

論文閱讀-Generative Image Inpainting with Contextual Attention

摘要：

1. 引言

2. 相關工作

2.1 圖像修複

2.2 注意力子產品

3. 改進的生成修複網絡

3.1 Coarse-fine 網絡架構

3.2 Global and local Wasserstein GANs

3.3 Spatially discounted reconstruction loss

4. Image Inpainting with Contextual Attention

4.1 Contextual Attention

Match and attend

Attention propagation

Memory efficiency

4.2 Unified Inpainting Network

5.Experiments

Qualitative comparisons

Quantitative comparisons

5.1 Ablation study

Contextual attention vs. spatial transformer network and appearance flow

Choice of the GAN loss for image inpainting

Essential reconstruction loss

Perceptual loss, style loss and total variation loss

6.Conclusion

繼續閱讀