天天看點

SwinIR_Image Restoration Using Swin Transformer論文閱讀分享AbstractIntroductionMethod總結:參考文獻SwinIR: Image Restoration Using Swin Transformer

論文連接配接:https://arxiv.org/abs/2108.10257

Abstract

本篇文章的圖像修複指的是從低品質圖檔恢複到高品質圖檔(例如超分,去噪,解壓縮圖檔),目前主流先進的圖像修複任務都是基于卷積做的,很少有人嘗試用transformer做高性能的進階視覺任務。而本篇文章主要就是基于Swin_transformer做的,本方法命名為SwinIR。該方法包含三個部分:淺層特征提取器、深層特征提取器、高品質圖像重模組化塊,針對不同的圖像修任務,圖像重模組化塊略有不同。特别的是,深層特征提取器是基于Swin_transformer做的。

Introduction

​ 目前卷積網絡是圖像修複的主流,大部分的卷積網絡關注精心的網絡架構設計和密集連接配接。盡管這些方法與傳統的圖像修複算法相比,提升了很多,但是通常都有兩個源自卷積本身的問題:1.首先,圖像與卷積核之間的互動是内容上獨立的,使用相同的卷積核去圖像不同區域的可能不是最好的選擇。2.卷積的局部處理原則對于建立長距離依賴的模組化不是非常有效的。

​ 而相較于卷積,transformer設計的self-attention機制能夠捕獲内容上的全局互動,在視覺任務上展現出非常大的潛力。但是tansformer直接用在視覺任務上也會造成一些問題,需要進行改進…

​ 而最近Swin_transformer展示出了很大的潛力,因為它整合了卷積和tansformer的優勢。本文正是基于Swin_transformer提出了本文的圖像修複算法。

Method

SwinIR_Image Restoration Using Swin Transformer論文閱讀分享AbstractIntroductionMethod總結:參考文獻SwinIR: Image Restoration Using Swin Transformer

本文的架構包含三個部分:淺層特征提取、深層特征提取、圖像重模組化塊。

3.1淺層特征提取

淺層特征提取子產品采用卷積實作,給定一個低品質的圖檔LQ,LQ ∈ R H , W , C i n \in R^{H,W,C_{in}} ∈RH,W,Cin​,然後采用卷積子產品 H S F ( . ) H_{SF}(.) HSF​(.)去提取淺層特征 F 0 ∈ R H , W , C F_0\in R^{H,W,C} F0​∈RH,W,C

F 0 = H S F ( I L Q ) F_0=H_{SF}(I_{LQ}) F0​=HSF​(ILQ​)

卷積層很擅長用于早期的圖像處理,提供了更好的方法将圖像的空間映射到更高維的特征空間。

3.2深層特征提取

利用得到的淺層特征F0,對F0進行深層特征模組化。深層特征提取子產品包含k個residual Swin Transformer blocks(RSTB)和一個3x3的卷積層。

F i = H R S T B i , i = 1 , 2 , 3 , . . . K , F D F = H C O N V ( F K ) F_i=H_{RSTB_i},i=1,2,3,...K, F_{DF}=H_{CONV}(F_K) Fi​=HRSTBi​​,i=1,2,3,...K,FDF​=HCONV​(FK​)

對于每個RST blocks子產品都是一個SwinTransformer layers 和一個卷積層。首先用這些block提取中間層特征 F i , 1 , F i , 2 , F i , 3 , . . , F i , L F_{i,1},F_{i,2},F_{i,3},..,F_{i,L} Fi,1​,Fi,2​,Fi,3​,..,Fi,L​

F i , j = H S T L i , j , j = 1 , 2 , 3 , . . . , L F_{i,j}=HSTL_{i,j},j=1,2,3,...,L Fi,j​=HSTLi,j​,j=1,2,3,...,L

這裡的 H S T L i , j ( . ) H_{STL_{i,j}}(.) HSTLi,j​​(.)是第i個RSTB中的第j層的Swin Transformer layer。

3.3圖像重模組化塊

針對不同的修複任務,在整個網絡架構的結尾部分的重模組化塊需要進行調整。

超分任務

為了獲得高品質的的圖檔 I R H Q I_{RHQ} IRHQ​是通過聚合淺層特征和深層特征

I R H Q = H R E C ( F 0 + F D F ) I_{RHQ}=H_{REC}(F_0+F_{DF}) IRHQ​=HREC​(F0​+FDF​)

這裡的 H R E C ( . ) H_{REC}(.) HREC​(.)是重模組化塊,淺層特征主要包含低頻資訊,而深層特征專注于恢複丢失的高頻資訊,通過長距離的跳躍連接配接,SwinIR可以将低頻資訊直接傳給重模組化塊,這樣就能是的深層提取器更加專注于高頻資訊和穩定訓練。對于超分任務,本文使用sub-pixel convolution layer 去上采樣特征圖。損失函數采用L1 pixel loss.

l o s s = ∣ ∣ I R H Q − I H Q ∣ ∣ 1 loss=|| I_{RHQ}-I_{HQ}||_1 loss=∣∣IRHQ​−IHQ​∣∣1​

本文隻用最原始的l1損失來證明所提出網絡的有效性,對于實際應用時可以聯合使用 pexel l1損失、GAN loss and 感覺損失來提升視覺品質。

總結:

這篇論文嘗試将Swin_transformer用在了圖像修複領域,方法上沒有很大的創新,主要是将Swin_transformer在底層視覺任務上進行應用了。并取得了非常好的實驗效果。

參考文獻

SwinIR: Image Restoration Using Swin Transformer

Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte

Timofte](https://arxiv.org/search/eess?searchtype=author&query=Timofte%2C+R)

繼續閱讀