天天看點

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記

  • Deep Learning for Image Super-resolution: A Survey
    • 簡介
    • 問題簡介和術語
      • 問題定義
      • 資料集
      • 圖像品質評估方法
      • 操作通道
    • 有監督的超分方法
      • 超分網絡架構
      • 上采樣方法
      • 網絡設計
        • 殘差學習
        • 遞歸學習
        • 多路徑學習
        • 稠密連接配接
        • 注意力機制
        • 進階卷積
      • 學習政策
        • 損失函數
        • 批量标準化/批量歸一化
      • State-of-the-art 超分辨率模型
    • 無監督的超分方法
    • 總結

Deep Learning for Image Super-resolution: A Survey

本文是2019年發表的一篇圖像超分辨率綜述文章。

paper:Deep Learning for Image Super-resolution: A Survey

簡介

本文的目标在于對近幾年基于深度學習的圖像超分辨率方法進行全面的介紹。

現有的基于深度學習的圖像超分方法可以大緻分為以下三類:有監督的SR、無監督的SR和特定領域的SR。此外,本文還對一些重要的概念進行了說明,比如超分領域常用的公開資料集、重建品質評估方法等。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

問題簡介和術語

問題定義

Ix =D(Iy;δ) Ix是低分辨率圖像,Iy是高分辨率圖像,D是下采樣過程,δ是參數(下采樣因子/噪聲)。

超分辨率重建過程可以由下式表示:

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

Iˆy是重建圖像,F是超分辨率模型,θ是F的參數。

大多數模型的LR資料集都是通過對HR資料做簡單下采樣(其中最常用的是bicubic插值)得到的,然而,有的模型會采用更複雜的降質(Degradation)方法:

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

上式中k代表模糊核,nς代表高斯加性白噪聲;經過此方法産生的圖像會更加接近真實圖像,對後續的重建操作更有益。

資料集

下表展示了圖像超分辨率任務中常用的資料集,并分别列出了各資料集的圖像數量、平均尺寸、圖像格式等。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

圖像品質評估方法

峰值信噪比PSNR(objective)

結構相似性SSIM(objective)

平均主觀意見分MOS(subjective)

操作通道

常見的圖像顔色模型包括RGB和YCbCr,早期的一些模型會選擇對YCbCr中的Y通道進行操作,最近的一些模型則傾向于對RGB通道進行超分處理。值得一提的是,顔色模型的選取會很大程度上影響最終的生成效果。

有監督的超分方法

超分網絡架構

有監督方法的基礎是LR-HR圖像對,網絡模型的結構多種多樣,下面介紹四種常見的結構。

a.pre-upsampling SR

因為直接學習低分辨率圖像和高分辨率圖像之間的映射過程會比較困難,Dong等人在SRCNN中首次使用了pre-upsampling SR結構,即先對低分辨率圖像做上采樣操作,使上采樣後的圖像尺寸與高分辨率相同,然後學習該上采樣後的圖像和高分辨率圖像之間的映射關系,極大地降低了學習難度。但是,預先上采樣通常會帶來副作用(例如,噪聲放大和模糊),并且由于大多數操作是在高維空間中執行的,是以時間和空間的成本比其他架構要高得多。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

b.Post-upsampling SR

為了提高計算效率并充分利用深度學習技術,研究人員提出在低維空間進行大多數的運算,在網絡的末端再進行上采樣操作。該做法的好處是,由于具有巨大計算成本的特征提取過程僅發生在低維空間中,大大降低了計算量和空間複雜度,該架構也已成為最主流的架構之一,在近年的模型中被廣泛應用。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

c. Progressive upsampling SR

雖然Post-upsampling SR很大程度上降低了計算難度,但對于比例因子較大的情況(4倍、8倍超分),使用Post-upsampling SR方法有較大的學習難度。而且,對于不同比例因子,需要分别訓練一個單獨的SR網絡模型,無法滿足對多尺度SR的需求。Progressive upsampling SR 架構下的模型是基于級聯的CNN結構,逐漸重建高分辨率圖像。在每一個階段,圖像被上采樣到更高的分辨率,Laplacian金字塔SR網絡(LapSRN)就采用了上述架構。通過将一個困難的任務分解為簡單的任務,該架構下的模型大大降低了學習難度,特别是在大比例因子的情況下,能夠達到較好的學習效果。然而,這類模型也存在着模型設計複雜、訓練穩定性差等問題,需要更多的模組化指導和更先進的訓練政策。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

d.Iterative up-and-down Sampling SR

為了更好地捕捉LR-HR圖像對之間的互相依賴關系,在SR中引入了一種高效的疊代過程,稱為反投影。DBPN就是基于該結構的模型之一,它交替連接配接上采樣層和下采樣層,并使用所有中間過程來重建最終的HR。該架構下的模型可以更好地挖掘LR-HR圖像對之間的深層關系,進而提供更高品質的重建結果。然而,反投影子產品的設計标準仍然不清楚,由于該機制剛剛被引入到基于深度學習的SR中,具有很大的潛力,需要進一步探索。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

上采樣方法

基于插值的上采樣方法:最近鄰插值法、雙線性插值法、雙三次插值法

此類上采樣方法隻根據圖像本身的信号來提高圖像的分辨率,而沒有帶來更多的資訊。

基于學習的上采樣方法:轉置卷積、亞像素卷積

轉置卷積

原理如圖所示:

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

操作分為兩步,首先對輸入圖像進行插值(零)使圖像尺寸放大,然後對放大後的圖像進行卷積操作。以上圖為例,輸入圖像尺寸為3x3,對圖像進行補零操作後,尺寸變為6x6,對該圖像進行卷積處理,就能得到尺寸為6x6的目标圖像,也就實作了二倍上采樣。

轉置卷積的缺點是容易産生棋盤格現象。

亞像素卷積

亞像素卷積的原理如圖所示,首先對輸入圖像做卷積處理,生成sxs個特征圖(s為上采樣因子),然後對sxs個特征圖做reshape操作,得到目标圖像。(reshape方法如圖)

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

網絡設計

殘差學習

分為全局殘差學習和局部殘差學習兩種。

全局殘差學習

由于圖像SR是一種圖像到圖像的轉換任務,其中輸入圖像與目标圖像高度相關,是以我們可以隻學習它們之間的殘差,這就是全局殘差學習。在這種情況下,可以避免學習從一個完整圖像到另一個圖像的複雜變換,而隻需要學習一個殘差圖來恢複丢失的高頻細節。由于大部分區域的殘差接近于零,模型的複雜度和學習難度大大降低。

局部殘差學習

類似于ResNet中的殘差學習,shortcut連接配接可以用于緩解網絡深度不斷增加所帶來的模型退化問題,降低了訓練難度,被廣泛應用在超分任務中。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

舉例:

SRGAN:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

RCAN: Image Super-Resolution Using Very Deep Residual Channel Attention Networks

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

遞歸學習

為了在不引入過多參數的情況下學習到更進階的特征,遞歸學習(即以遞歸方式多次應用相同子產品)被應用到超分任務中,如圖所示。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

一般來說,遞歸學習确實可以在不引入過多參數的情況下學習更精細的特征,但仍然無法避免較高的計算成本。它固有地帶來了梯度問題的消失或爆炸問題,是以一些技術,如殘差學習和多重監督經常與遞歸學習相結合,以緩解這些問題。

e.g. DRCN、MemNet、CARN、DSRN

MemNet: A Persistent Memory Network for Image Restoration

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

多路徑學習

多路徑學習是指通過多條路徑傳遞特征,每條路徑執行不同的操作,将它們的操作結果融合以提供更好的模組化能力。具體來說,它可以分為全局、局部和特定規模的多路徑學習。

全局多路徑學習

是指利用多條路徑來提取圖像不同方面的特征,這些路徑在傳播過程中可以互相交叉,進而大大提高學習能力。(e.g. LapSRN、DSRN)

LapSRN:Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

局部多路徑學習

子產品結構如下圖所示,在該子產品中,采用核尺寸為3×3和5×5的兩個卷積層同時提取特征,然後将輸出串接并再次進行相同的運算,最後再進行1×1的卷積運算。通過這種局部多路徑學習,SR模型可以更好地從多尺度中提取圖像特征,進一步提高性能。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

CVPR2020中的CSNLN便是應用了局部多路徑學習,将三個通道的資訊整合。包括原始的輸入(下)、尺度内非局部注意力(中)、跨尺度非局部注意力(上)。

CSNLN: Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

特定尺度的多路徑學習

考慮到不同尺度的SR模型需要經過相似的特征提取,Lim等人提出了尺度特定的多路徑學習方法來實作單網絡的多尺度重建。具體地說,它們共享模型的主要元件(即用于特征提取的網絡層),并分别在網絡的開始和結束處附加特定比例的預處理結構和上采樣結構(如圖所示)。在訓練期間,僅啟用和更新與標明比例相對應的子產品。這樣,所提出的MDSR通過共享不同尺度下的大部分參數,大大減小了模型的規模,并表現出與單尺度模型相當的性能。CARN和ProSR也采用了類似的特定尺度的多路徑學習。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

稠密連接配接

(Dense Connections 不知道是不是這樣翻譯)

自從Huang等人提出基于稠密塊的DenseNet以來,稠密連接配接在視覺任務中的應用越來越廣泛。對于稠密塊體中的每一層,将所有前一層的特征圖作為輸入,并将其自身的特征圖作為輸入傳遞到所有後續層。稠密連接配接不僅有助于減輕梯度消失、增強信号傳播和鼓勵特征重用,而且還通過采用小增長率(即密集塊中的信道數)和在連接配接所有輸入特征映射後壓縮通道數來顯著減小模型尺寸。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

RDN: Residual Dense Network for Image Super-Resolution

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

SRDenseNet: Image Super-Resolution Using Dense Skip Connections

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

注意力機制

考慮到不同通道之間特征的互相依賴關系,Hu等人提出了SENet,通過考慮通道之間的互相依賴關系來提高網絡的學習能力。在該子產品中,使用全局平均池化(GAP)将每個輸入信道壓縮成一個通道描述符(即常數),然後将這些描述符輸入到兩個密集層中,以産生各通道的權重因子。最近,Zhang等人将通道注意機制應用在超分中,提出了RCAN,顯著提高了模型的表達能力。為了更好地探究特征之間的相關性,Dai等人進一步提出二階通道注意力(SOCA)子產品。SOCA通過使用二階特征統計量代替了全局平均池化,以提取更加精細的特征。

SENet: Squeeze-and-Excitation Networks

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

RCAN: Image Super-Resolution Using Very Deep Residual Channel Attention Networks

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

SAN: Second-order Attention Network for Single Image Super-Resolution

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

CSNLN: Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

進階卷積

由于卷積運算是深層神經網絡的基礎,研究人員也試圖改進卷積運算以獲得更好的性能或更高的效率。包括使用擴張卷積(空洞卷積)、分組卷積、深度可分離卷積等。

學習政策

損失函數

像素(級)損失 pixel loss

分為L1損失和L2損失。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

在早期,研究者們通常采用L2損失作為模型的損失函數,但後來發現它不能很準确地衡量重建的品質。與L1損失相比,L2損失懲罰較大的error,但對小error的容忍度更高,是以常常導緻結果過于平滑。因為PSNR的定義與“對應像素之間的誤差”高度相關,最小化像素損失直接使PSNR最大化,像素損失逐漸成為應用最廣泛的損失函數。

内容損失 content loss

衡量不同圖像通過預訓練的模型後得到的特征圖之間的差異,計算圖像之間的感覺相似性。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

φ是預先訓練好的圖像分類網絡,如VGG、ResNet;l指該網絡的第l層。

紋理損失texture loss

考慮到重建圖像應具有與目标圖像相同的風格(如顔色、紋理、對比度),将圖像紋理視為不同特征通道之間的相關性.

對抗損失

在生成對抗網絡中,判别器被用來判斷目前輸入信号的真僞,生成器則盡可能産生“真”的信号,以騙過判别器。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

循環一緻性損失

該損失被用在cycleGAN中,其目的是保證生成的圖像必須保留有原始圖像的特性。在超分任務中,低分辨率圖像I經過超分重建後得到重建圖像Iˆ,I’則是對該重建圖像做下采樣後的低分辨率圖像,重新生成的I′應該盡可能與輸入I相同。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

總變化損失

為了抑制生成圖像中的噪聲,引入了總變化損失,它被定義為相鄰像素之間的絕對差異之和。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

批量标準化/批量歸一化

為了加速和穩定深部神經網絡的訓練,Sergey等人提出批量标準化(BN)以減少網絡的内部協變量偏移。具體來說,它們對每個小批量執行規範化,并為每個通道訓練兩個額外的轉換參數,以保持表示能力。然而,Lim等人在EDSR中提出BN會丢失每個圖像的比例資訊,并從網絡中去除範圍靈活性。此外,由于BN層與前面的卷積層消耗的記憶體量相同,是以移除BN層後,GPU記憶體使用量也充分減少。與SRResNet相比,沒有批量标準化層的baseline模型在訓練期間節省了大約40%的記憶體使用量。是以,在有限的計算資源下,我們可以建立一個比傳統ResNet結構有更好性能的更大的模型。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

State-of-the-art 超分辨率模型

下表總結了一些有代表性的模型及其關鍵政策。

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

無監督的超分方法

現有的超分辨率研究主要集中在有監督學習上,即利用比對的LR-HR圖像對進行學習。然而,由于同一場景不同分辨率的圖像難以采集,是以通常通過對HR圖像進行預先降質處理來獲得SR資料集中的LR圖像。為了學習真實世界的LR-HR映射,研究者們越來越關注無監督SR,在這種情況下,隻提供未配對的LR-HR圖像進行訓練,進而使生成的模型更有可能處理真實場景中的SR問題。

考慮到單個圖像内部的圖像統計資訊,Shocher等人提出了ZSSR,既不需要先驗的圖像樣本也不需要先驗的訓練,它利用單張圖檔的内部重複資訊在測試期間訓練一個小型針對特定圖檔的CNN。具體地說,從單個圖像估計退化核心,并使用該核心通過對該圖像執行不同比例因子的降級和增強來建構一個小資料集,然後在這個資料集上訓練一個小的用于SR的CNN并用于最終的預測。

ZSSR: Zero-Shot Super-Resolution Using Deep Internal Learning

ZSSR有以下幾點貢獻:

(1)第一篇采用無監督方式搭建的CNN超分辨率算法;

(2)能對非理想條件下的圖像進行處理;

(3)不需要進行預訓練,并且計算量小;

(4)沒有任何的尺寸限制,可以應用到任何比例的SR任務;

下面這篇是CVPR2020中的一篇無監督超分文章,資料集為非配對的LR、HR,同時加入了CycleGAN的思想。

Unpaired Image Super-Resolution using Pseudo-Supervision

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

總結

本文對圖像超分辨率進行了全面整體的介紹,提出了以後可以重點探索的方向:

1.網絡設計

Combining Local and Global Information. 結合局部和全局資訊

Combining Low-and High-level Information. 将淺層CNN提取的資訊(如色彩等)與深層CNN提取的圖像特征結合。

Context-specific Attention.

More Efficient Architectures. 在實際應用中,過于複雜的模型結構是不太能被接受的,是以需要更加高效的結構。

Upsampling Methods上采樣方法

如何進行有效和高效的上采樣仍然需要研究,特别是在高比例因子的情況下。

2.學習政策

損失函數

現有的損失函數可以看作是在LR/HR/SR圖像之間建立限制條件,并根據這些限制條件來指導優化過程。在實際應用中,這些損失函數往往是權重組合的,而SR的最佳損失函數仍不清楚。是以,探索這些圖像之間潛在的相關性,尋求更精确的損失函數是最有前途的方向之一。

BN

盡管BN被廣泛應用于視覺任務中,大大加快了訓練速度并提高了性能,但對于超分辨率來說,它的效果并不好。是以,需要對SR的其它有效歸一化技術進行研究。

3.評價方法

Blind IQA Methods 目前用于SR的大多數名額都是參考方法,即假設我們已将LR-HR圖像與完美品質配對。但由于這類資料集的擷取比較困難,常用的評價資料集往往采用人工降級的方式進行。在這種情況下,我們執行的評估任務實際上是預定義降級的逆過程。是以,發展Blind IQA 方法有很大的需求。

4.無監督超分辨率

圖像超分辨率綜述:Deep Learning for Image Super-resolution: A Survey 閱讀筆記Deep Learning for Image Super-resolution: A Survey

繼續閱讀