天天看點

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels

(适用于任意模糊核心的深度即插即用超分辨率)

源碼包:https://github.com/cszn/DPSR

論文下載下傳:https://arxiv.org/abs/1903.12529

來源:CVPR19年論文

論文背景:

現存在的方法主要是針對廣泛使用的雙三次退化而設計的,對于任意模糊核的超分辨率低分辨率圖像仍然存在根本性的挑戰。

本文是一種基于雙三次退化的深度SISR算法架構,利用即插即用架構對任意模糊核的LR圖像進行處理,設計了一個新的SISR退化模型,以利用現有的盲去模糊方法進行模糊核估計。為了優化新的退化誘導能量函數,我們通過變量分裂技術推導了一個即插即用算法,該算法允許我們插入任何超分解先驗而不是去噪先驗作為子產品部分。對合成和真實LR圖像的定量和定性評價表明,所提出的深度即插即用超分辨率架構能夠靈活有效地處理模糊LR圖像。

先前的SISR的兩種降解模型:

①:y = (x ⊗ k) ↓s + n 模糊核心與高分辨率圖像卷積之後帶一個比例因子↓s,再加上一加性高斯白噪聲(AWGN),噪聲級為σ。

②:雙三次退化模型:y = x ↓s ↓s表示具有縮放因子s的雙三次下采樣器(Matlab預設函數的大小)。由于其簡單性,雙三次降采樣器模型成為評價SISR方法的基準設定

主要解決以下兩個問題:

1)設計一種替代的降解模型

2)将現有的基于DNN的雙三次退化方法擴充到新的降解模型中,以充分利用DNN的能力。

替代模型假設LR圖像是HR圖像的雙采樣、模糊和噪聲版本:有兩個優點:首先,進行推廣;其次,它使我們能夠采用現有的盲去模糊方法來估計給定LR圖像的模糊核。

本文架構将基于神經網絡的超分辨器內建到一個基于變量分裂的疊代優化方案中。結果表明,在傅裡葉域中可以有效地處理模糊失真。是以,可以處理任意模糊核心。通過對現有的基于dnn的超級解析器進行少量修改,實作插拔步驟。

到目前為止,我們主要關注的是針對任意均勻模糊核心的非盲SISR,而不是針對任意非均勻模糊核心的盲SISR。盲SISR通常包括交替更新模糊核心和應用非盲SISR更新超分辨率圖像,工作嘗試訓練DNN直接估計幹淨圖像進行盲消模糊,但其實用性還有待進一步評價

本工作的貢獻:

① 提出了一種比雙三次退化模型更符合實際的SISR退化模型。它考慮了任意的模糊核心,并支援使用現有的去模糊方法進行模糊核心估計。

② 提出了一種深度即插即用的超分辨率架構來解決SISR問題。DPSR不僅适用于雙三次退化,而且可以處理任意模糊核的LR圖像。由于疊代方法的目的是求解新的退化誘導能函數,是以提出的DPSR算法具有良好的原則性。

③ 提出的DPSR擴充了現有的即插即用架構,表明了SISR的即插即用先驗并不局限于高斯去噪。

相關工作:雙三次的退化

即插即用圖像恢複技術提出後由于其在處理各種反問題時的靈活性和有效性,受到了廣泛的關注。該方法利用變量分裂技術實作了能量函數的初始化,并采用任意一種現成的高斯去噪器來代替先驗相關子問題。與傳統相比,它可以隐式地定義即插即用先驗。據我們所知,現有的即插即用圖像恢複方法大多将高斯去噪作為先驗。我們将證明,對于即插即用SISR的應用,先驗并不局限于高斯去噪。相反,一個簡單的超分解器先驗可以用來解決一個更複雜的SISR問題。

加性高斯白噪聲在通信領域中指的是一種各頻譜分量服從均勻分布(即白噪聲),且幅度服從高斯分布的噪聲信号

當根據經驗及有關材料推測出主觀機率後,對其是否準确沒有充分把握時,可采用機率論中的貝葉斯公式進行修正,修正前的機率稱為先驗機率,修正後的機率稱為後驗機率

最大後驗機率估計”是後驗機率分布的衆數

雙三次退化模型

y = x ↓s ↓s表示具有縮放因子s的雙三次下采樣器。

求出目标圖像B中每一像素點(X,Y)的值,必須先找出像素(X,Y)在源圖像A中對應的像素(x,y),再根據源圖像A距離像素(x,y)最近的16個像素點作為計算目标圖像B(X,Y)處像素值的參數,利用BiCubic基函數求出16個像素點的權重,圖B像素(x,y)的值就等于16個像素點的權重疊加。下采樣(即抽取):對于一個樣值序列間隔幾個樣值取樣一次,這樣得到新序列就是原序列的下采樣

比雙三次退化模型更符合實際的、考慮了任意的模糊核心、支援使用現有的去模糊方法進行模糊核心K的估計。

要點一:

本文模型:為了簡化模糊核估計,退化模型y=(x↓s)⊗k+n,↓s是具有尺度因子s的雙三次下采樣器,簡單地說,表示LR圖像y是幹淨HR圖像x的雙二下采樣、模糊和噪聲版本。模型公式實際上對應于一個去模糊問題和一個具有雙三次退化的SISR問題。是以,我們可以充分利用現已有的去模糊方法來估計k,這是優勢之一。

要點二:

能量函數:根據最大後驗機率(MAP),将能量函數形式化地給出

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

Min…是由退化模型确定的資料保真度(似然)項(為了友善和澄清參數的設定,從貝葉斯的觀點來看)。Φ(x)正規化(先前)項。λ是懲罰參數。(結合起來是懲罰項)

對于能量函數:來解決能量函數首先采用變量分裂技術引入一個輔助變量z,得到以下等價限制優化公式:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

然後我們處理等價限制公式使用了半二次方分裂(HQs)算法。注意,也可以利用ADMM等其他算法。我們使用HQs是因為它的簡單性。HQS通過最小化以下問題來處理,該問題涉及額外的二次懲罰項:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

µ是懲罰參數,一個非常大的µ将強制z大約等于x↓s

通常情況下,µ會在下面的疊代解決方案中非降序變化。

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

這方案是關于z(輔助變量)和x(高分圖像)的交替極小化問題。

一方面,由于模糊核k隻涉及封閉形式的解,z式解決模糊的失真問題。換句話說,它把目前的估計拉到一個不那麼模糊的地方。另一方面,x式将模糊程度較小的圖像映射到更清晰的HR圖像,經過多次交替疊代,最終重建的HR圖像不包含模糊和噪聲。

貢獻三:即插即用架構,表明了SISR的即插即用先驗并不局限于高斯去噪。

假設卷積是用圓形邊界條件進行的,關于Z的有一個快速封閉的解決方案:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

式中F和F逆表示快速傅立葉變換(FFT)和逆FFT,F(-)表示F()的複共轭。

關于x,從貝葉斯的角度,我們重寫它如下:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

通過假設zk 1是從HR圖像x中雙二下采樣的,來應對具有比例因子s的超分辨率zk 1,然後被噪聲等級

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

的AWGN所破壞。

從另一個角度來看重寫公式用以下簡單的雙三次退化模型解決了一個超分辨率問題。y = x↓s + n.是以,一個可以插入基于DNN的超級解析器,訓練在廣泛使用的雙三次退化與一定的噪聲水準,以取代重寫公式。為了簡潔,x和重寫公式可簡化為:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

由于上一項Φ(X)是在SR(·)中隐式定義的,是以我們将其稱為超級解析器優先。

要點三:

超級解析器網絡

由于SRResNet是一個著名的基于DNN的超解析器,本文提出了一種改進的SRResNet,即SRResNet+,用于插入所提出的DPSR架構。SRResNet+在幾個方面與SRResNet不同。首先,SRResNet+以噪聲級别映射M作為輸入。其次,SRResNet+将功能地圖的數量從64個增加到96個。第三,SRRESnet+移除批處理正常化層。

所提議的DPSR方法與幾個密切相關的基于dnn的方法之間的根本差別。

1.級聯去模糊和SISR。對于具有任意模糊核的超分辨LR圖像,一種啟發式方法是先進行去模糊,然後對去模糊後的LR圖像進行超分辨。然而,這種級聯兩步法的缺點是,第一步的攝動誤差(the perturbation error)會在第二步放大。相反,DPSR對Eqn(4)給出的能量函數進行疊代優化。是以,DPSR趨向于提供更好的性能。

2.微調SISR模型與更多的訓練資料。

也許最直接的方法是對現有的基于雙三次退化的SISR模型進行微調,使用新退化模型生成的更多訓練資料(即,Eqn。(3)造成所謂的盲SISR。然而,這種方法的性能會嚴重惡化,尤其是考慮到大的複雜模糊核時,這可能是因為模糊的失真會進一步加劇像素平均問題[34]。對于DPSR,它以blur核心作為輸入,通過Eqn(9)可以有效地處理blur的失真。

3.具有端到端訓練的擴充SRMD或DPSR

受SRMD的啟發[65],人們可以嘗試通過考慮任意模糊核心來擴充它。但是,很難對足夠多的模糊核心進行采樣,以覆寫較大的核心空間。此外,訓練一個可靠的模型需要大量的時間。相比之下,DPSR隻需要對模型進行雙三次退化的訓練,訓練時間大大縮短。此外,SRMD雖然可以有效地處理具有多個連續卷積層的15×15大小的簡單高斯核,但對于處理較大的複雜模糊核就失去了有效性。相反,DPSR通過Eqn(9)采用了FFT更加簡潔和專業的子產品來消除模糊的失真。或者,可以利用DPSR的結構優勢,以端到端方式聯合教育訓練DPSR。然而,我們把這留給我們未來的工作。

從上面的讨論中,我們可以得出結論,我們的DPSR原則良好,結構簡單,可解釋性強,并且較少涉及教育訓練。

實驗:

(1)模糊核:為了全面評估提議的任意模糊核心的有效性,我們有三種廣泛使用的模糊核心類型,包括高斯模糊核心、運動模糊核心和磁盤(失焦)模糊核心。一些核心示例如圖1所示。注意,核心大小範圍從5×5到35×35。如表2所示,我們進一步考慮了對于比例因子為3時的兩種不同噪聲水準的高斯噪聲,即2.55(1%)及7.65(3%)。

高斯核;從區間[0.6,2]均勻采樣的8個各向同性高斯核和8個各向異性高斯模糊核。

運動核:8個模糊核及其通過随機旋轉和翻轉而增加的8個核心;代碼生成的16個外觀逼真的運動模糊核。

磁盤(失焦)模糊核心:[1.8,6]半徑均勻采樣的8個圓盤核。它們是由MATLAB函數fSpecial(‘Disk’,r)生成的,其中r是半徑。

(2)參數設定

在Eqn(7)和Eqn(8)的交替疊代中,我們需要設定λ和優化來獲得一個令人滿意的性能。設定這些參數被認為是一項重要的任務。但是,使用以下兩個原則,DPSR的參數設定通常很容易。首先,由于λ是固定的,可以吸收σ,我們可以用一個标量

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

乘以σ,是以在Eqn(8)忽略λ。第二,由于在疊代過程中具有非降序,是以我們可以設定來自Eqn(12)的

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

。在每一次疊代中,用一個非升序間接确定。從經驗上講,經驗法則是将λ設定為1/3,并将

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

從49個指數降到一個小的σ依賴值(例如,最大值(2.55,σ),共15次疊代)。

(3)比較方法

我們将所提出的DPSR方法與六種方法進行了比較,包括兩種具有代表性的基于DNN的雙三次退化方法(即VDSR和rcan)、兩種級聯去模糊方法和SISR方法(即,IRCNN+rcan和DeblurGAN+rcan)和兩種特别設計的模糊LR圖像方法(即GFN和ZSSR)。具體而言,VDSR是SiSR的第一個非常深的網絡;RCAN由400多個層組成,實作了雙三次降級的最新性能;IRCNN是即插即用的方法;DeFurgan是一種基于生成對抗網絡(GAN)的深盲去模糊方法,GFN是一種基于DNN的方法。聯合盲運動去模糊和超分辨率;ZSSR是一種基于無監督DNN的方法,能夠超分辨模糊和噪聲LR圖像。請注意,IRCNN、ZSSR和DPSR可以将模糊核心和噪聲級别作為輸入。為了進行公平的比較,我們将ZSSR修改為我們的新的降解模型。

(4)量化結果。

在彩色BSD 68資料集[39,48,62]上,不同方法對不同降解設定的PSNR和Ssim結果如表2所示,從中我們得到了一些觀察結果。第一,同時與VDSR相比,RCAN性能優于VDSR(參見[67]),對于複雜的退化設定,它具有與VDSR相當的性能,甚至優于雙三次插值。這種現象[51,65]也報告了這一點。其次,在通過ircnn進行去模糊步驟之後,ircnn+r可以顯著地改善PSNR和SSIM值。第三,DEBURGAN+RCAN和GFN導緻性能差這可以歸因于連續卷積層在處理大的複雜模糊的失真中的有限能力。第四,ZSSR對于大的複雜模糊核是較不有效的,因為模糊LR圖像缺乏複發性。最後,我們的DPSR實作了最佳的性能,因為它直接優化了能量函數以滿足給定的降級,并且可以有效地進行處理。

(5)視覺效果

。圖2為高斯模糊超分辨LR圖像的尺度因子為4的幾種方法的對比圖。可以看出,由于降解失配,VDSR和RCAN無疑會産生令人不快的結果。DeblurGAN+RCAN生成非常令人不愉快的僞影,與LR圖像相比,并不能減輕模糊程度。GFN的性能不太好,而ZSSR對超分辨非常模糊的LR圖像的效果較差。與DeblurGAN+RCAN、GFNandZSSR相比,IRCNN+RCAN産生了更好的效果,但同時也産生了一些噪聲類僞影,這些僞影可能是由IRCNN引入,然後由RCAN放大。相比之下,我們的DPSR産生的視覺效果最好

圖3進一步展示了另外兩種模糊核心的視覺對比。可以看出,DPSR始終能夠産生最佳的視覺效果。特别是GFN雖然在一定程度上可以處理運動模糊,但其視覺效果明顯不如IRCNN+RCAN和DPSR。其根本原因是,它無法盲目處理由連續卷積産生的模糊的失真。我們知道其他基于學習的方法(如[54])也存在這樣的問題。

(6)收斂性。由于我們的DPSR是SISR即插即用架構的一個特例,可以參考[10,45]來分析理論收斂性。在本文中,我們僅僅提供了一個經驗證據來證明DPSR的收斂性。在圖像102061上顯示了所提議的DPSR的真實情況,并考慮了不同類型的模糊核心和不同的噪聲水準。在圖5(a)中,我們将噪聲級别固定為0,并為每種核心類型選擇第三個核心。在圖5(b)中,我們将模糊核固定在第三個高斯核上,選擇三個不同的噪聲等級,分别為0、2.55和7.65。可以看出,DPSR收斂速度非常快

為了降低計算成本,我們的DPSR并不一定需要疊代求解雙三次退化,因為我們采用的超分解器先驗已經針對這種退化進行了端到端的訓練。顯然,這也是現有即插即用SISR的一個優勢。對于其他降級的情況,DPSR的運作時間主要取決于疊代的總數。在單GPU上,DPSR根據不同的比例因子對大小為256x256的LR圖像進行超分辨大約需要1.8秒。作為對比,ZSSR在比例因子2、3和4上分别花費了12、14和18秒。實際上,可以調整疊代的總數來平衡性能和速度。

雙三次插值(常說的圖像是一個點陣,像素矩陣。另外一種:用函數來描述的圖像的矢量圖,放大就用上了插值,但其實沒有增加像素資訊,是采用數學公式計算丢失像素的色彩,增加圖像大小)

利用三次多項式求逼近理論上最佳插值函數sin(x*π)/x,三次多項式:

适用于任意模糊核心的深度即插即用超分辨率(DPSR論文筆記-2019CVPR)

(這個論文我隻看了粗略地看了一次,隻看了模型和函數,請多指教)

繼續閱讀