論文連接配接：https://arxiv.org/abs/2108.10257

Abstract

本篇文章的圖像修複指的是從低品質圖檔恢複到高品質圖檔（例如超分，去噪，解壓縮圖檔），目前主流先進的圖像修複任務都是基于卷積做的，很少有人嘗試用transformer做高性能的進階視覺任務。而本篇文章主要就是基于Swin_transformer做的，本方法命名為SwinIR。該方法包含三個部分：淺層特征提取器、深層特征提取器、高品質圖像重模組化塊，針對不同的圖像修任務，圖像重模組化塊略有不同。特别的是，深層特征提取器是基于Swin_transformer做的。

Introduction

目前卷積網絡是圖像修複的主流，大部分的卷積網絡關注精心的網絡架構設計和密集連接配接。盡管這些方法與傳統的圖像修複算法相比，提升了很多，但是通常都有兩個源自卷積本身的問題：1.首先，圖像與卷積核之間的互動是内容上獨立的，使用相同的卷積核去圖像不同區域的可能不是最好的選擇。2.卷積的局部處理原則對于建立長距離依賴的模組化不是非常有效的。

而相較于卷積，transformer設計的self-attention機制能夠捕獲内容上的全局互動，在視覺任務上展現出非常大的潛力。但是tansformer直接用在視覺任務上也會造成一些問題，需要進行改進…

而最近Swin_transformer展示出了很大的潛力，因為它整合了卷積和tansformer的優勢。本文正是基于Swin_transformer提出了本文的圖像修複算法。

Method

SwinIR_Image Restoration Using Swin Transformer論文閱讀分享AbstractIntroductionMethod總結：參考文獻SwinIR: Image Restoration Using Swin Transformer

本文的架構包含三個部分：淺層特征提取、深層特征提取、圖像重模組化塊。

3.1淺層特征提取

淺層特征提取子產品采用卷積實作，給定一個低品質的圖檔LQ,LQ ∈ R H , W , C i n \in R^{H,W,C_{in}} ∈RH,W,Cin,然後采用卷積子產品 H S F ( . ) H_{SF}(.) HSF(.)去提取淺層特征 F 0 ∈ R H , W , C F_0\in R^{H,W,C} F0∈RH,W,C

F 0 = H S F ( I L Q ) F_0=H_{SF}(I_{LQ}) F0=HSF(ILQ)

卷積層很擅長用于早期的圖像處理，提供了更好的方法将圖像的空間映射到更高維的特征空間。

3.2深層特征提取

利用得到的淺層特征F0,對F0進行深層特征模組化。深層特征提取子產品包含k個residual Swin Transformer blocks(RSTB)和一個3x3的卷積層。

F i = H R S T B i , i = 1 , 2 , 3 , . . . K , F D F = H C O N V ( F K ) F_i=H_{RSTB_i},i=1,2,3,...K, F_{DF}=H_{CONV}(F_K) Fi=HRSTBi,i=1,2,3,...K,FDF=HCONV(FK)

對于每個RST blocks子產品都是一個SwinTransformer layers 和一個卷積層。首先用這些block提取中間層特征 F i , 1 ， F i , 2 , F i , 3 , . . , F i , L F_{i,1}，F_{i,2},F_{i,3},..,F_{i,L} Fi,1，Fi,2,Fi,3,..,Fi,L

F i , j = H S T L i , j , j = 1 , 2 , 3 , . . . , L F_{i,j}=HSTL_{i,j},j=1,2,3,...,L Fi,j=HSTLi,j,j=1,2,3,...,L

這裡的 H S T L i , j ( . ) H_{STL_{i,j}}(.) HSTLi,j(.)是第i個RSTB中的第j層的Swin Transformer layer。

3.3圖像重模組化塊

針對不同的修複任務，在整個網絡架構的結尾部分的重模組化塊需要進行調整。

超分任務

為了獲得高品質的的圖檔 I R H Q I_{RHQ} IRHQ是通過聚合淺層特征和深層特征

I R H Q = H R E C ( F 0 + F D F ) I_{RHQ}=H_{REC}(F_0+F_{DF}) IRHQ=HREC(F0+FDF)

這裡的 H R E C ( . ) H_{REC}(.) HREC(.)是重模組化塊，淺層特征主要包含低頻資訊，而深層特征專注于恢複丢失的高頻資訊，通過長距離的跳躍連接配接，SwinIR可以将低頻資訊直接傳給重模組化塊，這樣就能是的深層提取器更加專注于高頻資訊和穩定訓練。對于超分任務，本文使用sub-pixel convolution layer 去上采樣特征圖。損失函數采用L1 pixel loss.

l o s s = ∣ ∣ I R H Q − I H Q ∣ ∣ 1 loss=|| I_{RHQ}-I_{HQ}||_1 loss=∣∣IRHQ−IHQ∣∣1

本文隻用最原始的l1損失來證明所提出網絡的有效性，對于實際應用時可以聯合使用 pexel l1損失、GAN loss and 感覺損失來提升視覺品質。

總結：

這篇論文嘗試将Swin_transformer用在了圖像修複領域，方法上沒有很大的創新，主要是将Swin_transformer在底層視覺任務上進行應用了。并取得了非常好的實驗效果。

參考文獻

SwinIR: Image Restoration Using Swin Transformer

Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte

Timofte](https://arxiv.org/search/eess?searchtype=author&query=Timofte%2C+R)

SwinIR_Image Restoration Using Swin Transformer論文閱讀分享AbstractIntroductionMethod總結：參考文獻SwinIR: Image Restoration Using Swin Transformer

Abstract

Introduction

Method

3.1淺層特征提取

3.2深層特征提取

3.3圖像重模組化塊

超分任務

總結：

參考文獻

SwinIR: Image Restoration Using Swin Transformer

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【Torch】最簡潔logging使用指南