圖像去噪是研究人員幾十年來試圖解決的一個經典問題。在早期，研究人員使用濾波器器來減少圖像中的噪聲。它們曾經在噪音水準合理的圖像中工作得相當好。然而，應用這些濾鏡會使圖像模糊。如果圖像太過嘈雜，那麼合成的圖像會非常模糊，圖像中的大部分關鍵細節都會丢失。

使用深度學習架構會更好的解決這個問題。目前看深度學習遠遠超過了傳統的去噪濾波器。在這篇文章中，我将使用一個案例來逐漸解釋幾種方法，從問題的形成到實作最先進的深度學習模型，然後最終看到結果。

内容摘要

圖像中的噪聲是什麼?
問題表述
機器學習問題提法
資料來源
探索性資料分析
圖像去噪的傳統濾波器概述
用于圖像去噪的深度學習模型
結果比較
未來的工作和改進的範圍
參考文獻

圖像中的噪點是什麼？

圖像噪聲是所捕獲圖像中亮度或顔色資訊的随機變化。這是由外部源引起的圖像信号劣化。從數學上講，圖像中的噪點可以表示為

A（x，y）= B（x，y）+ H（x，y）

複制

其中

A（x，y）=噪聲圖像的函數；B（x，y）=原始圖像的函數；H（x，y）=噪聲的函數；

問題表述

傳統的圖像降噪算法始終假定噪聲是均勻的高斯分布。但是，實際上，真實圖像上的噪點可能要複雜得多。真實圖像上的這種噪聲稱為真實噪聲或盲噪聲。傳統的濾波器無法在具有此類噪點的圖像上表現良好。

是以問題的表述變成了：我們如何去噪包含盲噪聲的圖像？

我們的目的是用盲噪聲對彩色圖像進行去噪，沒有延遲的限制，因為我想對圖像進行降噪處理，使其盡可能接近真實值實況，即使它花費了合理的時間

盲去噪是指在去噪過程中，用于去噪的基礎是從有噪聲的樣本本身學習來的。換句話說，無論我們建構什麼樣的深度學習體系結構，都應該學習圖像中的噪聲分布并去噪。是以和往常一樣，這都取決于我們提供給深度學習模型的資料類型。

機器學習問題提法

首先，讓我們考慮一下RGB圖像的格式。一個圖像的3個顔色通道

使用深度學習進行圖像去噪圖像去噪是研究人員幾十年來試圖解決的一個經典問題。在早期，研究人員使用濾波器器來減少圖像中的噪聲。它們曾經在噪音水準合理的圖像中工作得相當好。然而，應用這些濾鏡會使圖像模糊。如果圖像太過嘈雜，那麼合成的圖像會非常模糊，圖像中的大部分關鍵細節都會丢失。

任何RGB圖像對于每個像素都有三個顔色通道——紅、綠、藍。

現在，每種顔色都由一個範圍為0-255的8位數字表示。任何圖像都可以用一個三維矩陣來表示。

對于一個有噪聲的圖像。

我們在前面的章節中看到，噪聲是像素的随機變化。換句話說，圖像中3個通道的一些像素數值被破壞了。為了恢複圖像的原始形式，我們需要糾正那些損壞的像素值。

我們可以把這看作是一個監督學習回歸問題，在這個問題中我們預測被損壞像素的真實值[0-255範圍内的數字]。

我将使用的損失是MSE(均方誤差)。分數越低越好。

對于績效評估，我會使用兩個名額，分數越高越好

PSNR (Peak Signal to Noise Ratio) 峰值信噪比
SSIM (Structural Similarity Index Measure) 結構相似性

資料來源

由于這是一個監督學習問題，我們需要一對有噪聲的圖像(x)和ground truth圖像(y)。

我從三個方面收集了這些資料。

SIDD -包含160對來[噪聲-真值]圖像

RENOIR -包含80對[嘈雜的-真值]圖像

NIND -包含62對[噪聲-真值]圖像

探索性資料分析

中繼資料分析

我們可以看到，大部分照片是在iPhone 7上被拍攝的，其次是三星S6和谷歌Pixel。LG G4的照片數量最少。

資料集中總共使用了14個唯一的ISO級别設定。大多數照片都是在低ISO設定下點選的。最常用的ISO設定是100和800，然後是1600,400和3200。曝光越高，圖像就越亮，反之亦然。

大多數照片是在100快門速度下拍攝的，其次是400和800快門。快門速度越快，圖像就越暗，反之亦然。

大多數照片是在普通亮度模式下點選的，其次是低亮度模式。三星S6在高亮度下隻點選了2張照片。

我們可以看到每一部手機都有自己的圖像分辨率。每一部手機都以相同的分辨率拍攝照片。

可以看出，大部分的平均像素值處于較低到中值(較暗到中亮度的圖像)。隻有少數是非常高的價值(明亮的圖像)。你也可以看到在噪聲圖像中的一些平均值與真實圖像有差異。這種差異在較高像素值時更容易看到。

可以觀察到，與原始圖像相比，噪聲圖像具有像素強度的平滑分布。産生這樣的原因是，每當圖像中有噪點時，相機便無法捕獲這些像素的顔色資訊（由于各種原因），是以，在這些像素中填充“無顔色”（大部分是通過相機軟體填充一些随機值。由于這些随機值（噪聲），像素值變得平滑了。

傳統圖像去噪濾波器概述

傳統上，研究人員想出了濾波器器來對圖像進行降噪。大多數濾波器器特定于圖像所具有的噪聲類型。有幾種類型的噪聲，例如高斯噪聲，泊松噪聲，斑點噪聲，椒鹽（脈沖）噪聲等。每種類型的噪聲都有特定的濾波器。是以，使用傳統濾波器對圖像進行降噪的第一步是識别圖像中存在的噪聲類型。确定後，我們可以繼續應用特定的濾波器器。為了識别噪聲的類型，有一些數學公式可以幫助我們猜測噪聲的類型。否則，領域專家可以僅通過檢視圖像來決定。還有一些濾波器可以處理任何類型的噪聲。

有大量的濾波器可用于對圖像進行降噪。每個人都有其優點和缺點。在這裡，我将讨論非局部均值（NLM）算法，該算法被認為可以很好地對圖像進行去噪。

NLM的公式，

該算法将像素的估計值計算為圖像中所有像素的權重平均值，但是權重族取決于像素i和j之間的相似度。換句話說，它檢視一個圖像塊，然後識别整個圖像中的其他相似塊，并對它們進行權重平均。要了解這一點，請考慮以下圖像，

相似的色塊用相同顔色的方框标記。是以，現在，它将相似更新檔的像素的權重平均值作為目标像素的估計值。該算法将色塊大小和色塊距離作為輸入。

考慮以下使用NLM濾鏡去噪的灰階圖像。

您可以看到NLM在圖像去噪方面做得不錯。如果仔細觀察，将會發現去噪圖像略有模糊。這是由于應用于任何資料的均值将使值平滑。

但是，當噪聲水準太高時，NLM無法提供良好的結果。考慮以下圖像，該圖像已使用NLM濾波器進行了去噪。

可以清楚地看到，去噪後的圖像太模糊了，大部分關鍵細節都丢失了。例如，觀察藍色卡車的橙色前燈。

用于圖像去噪的深度學習模型

随着深度學習技術的出現，現在可以從圖像中去除盲目的噪聲，這樣的結果非常接近于真實圖像的細節損失最小。

已經實作了三個深度學習架構，

REDNet、MWCNN、PRIDNet

REDNet -Residual Encoder-Decoder Networks

這是一個基于CNN的跳過連接配接的自動編碼器架構。體系結構如下:

在這裡，我用了5層卷積的編碼器和5層反卷積的解碼器。這是一個非常簡單的體系結構，我将其作為基準。

input_0 = Input(shape=(256,256,3), name="input_layer")
conv_layer_1 = Conv2D(filters=256, kernel_size=2, padding='same', name="conv_1")(input_0)
conv_layer_2 = Conv2D(filters=256, kernel_size=2, padding='same', name="conv_2")(conv_layer_1)
conv_layer_3 = Conv2D(filters=256, kernel_size=3, padding='same', name="conv_3")(conv_layer_2)
conv_layer_4 = Conv2D(filters=256, kernel_size=3, padding='same', name="conv_4")(conv_layer_3)
conv_layer_5 = Conv2D(filters=128, kernel_size=3, padding='same', name="conv_5")(conv_layer_4)

deconv_layer_5 = Conv2DTranspose(filters=256, kernel_size=2, padding='same', name="deconv_5")(conv_layer_5)
deconv_layer_5 = Add(name="add_1")([conv_layer_4, deconv_layer_5])
deconv_layer_4 = Conv2DTranspose(filters=256, kernel_size=2, padding='same', name="deconv_4")(deconv_layer_5)
deconv_layer_3 = Conv2DTranspose(filters=256, kernel_size=3, padding='same', name="deconv_3")(deconv_layer_4)
deconv_layer_3 = Add(name="add_2")([conv_layer_2, deconv_layer_3])
deconv_layer_2 = Conv2DTranspose(filters=128, kernel_size=3, padding='same', name="deconv_2")(deconv_layer_3)
deconv_layer_1 = Conv2DTranspose(filters=3, kernel_size=3, padding='same', name="deconv_1")(deconv_layer_2)
out = Add(name="add_3")([input_0, deconv_layer_1])

model = Model(inputs=[input_0], outputs=[out])

複制

如您所見，該體系結構在去噪圖像方面效果很好。您絕對可以看到噪點有所減少，并且圖像正在嘗試針對損壞的像素适應圖像的原始顔色。該體系結構的PSNR得分為30.5713，SSIM得分為0.7932。

MWCNN — Multi-level Wavelet CNN

這是基于小波的深度學習架構。它的架構與U-Net架構有着驚人的相似性。MWCNN的唯一差別在于，與U-Net中的下采樣和上采樣不同，這裡我們使用DWT（離散小波變換）和IWT（逆小波變換）。DWT和IWT的工作方式已超出此文章的範圍。但是，我在[參考資料部分]附加了一些資源，您可以從中學習這些資源。

在這裡，我已将此體系結構擴充到4個級别。是以，我的網絡深度變為32。此代碼有點長，我在Keras中使用了自定義層。您可以在Github存儲庫中檢視有關MWCNN的完整代碼。

我們可以看到，與REDNet相比，該架構的工作方式更好，圖像更清晰。該體系結構的PSNR得分為32.5221，SSIM得分為0.8397。

PRIDNet — Pyramid Real Image Denoising Network

這是用于盲降噪的最先進的深度學習架構。這種體系結構不像我們在前面的兩個網絡中看到的那樣簡單。PRIDNet有幾個子產品，分為三個主要部分。

起初看起來似乎有些不知所措。但是讓我将其分解成細節，這很容易了解。

頻道注意力子產品

通道注意子產品負責注意力機制。這裡注意力機制的實作方式是将注意力放在輸入U的每個通道上。可以将這種“注意力”視為權重。是以，每個通道将有一個權重。注意力權重将是大小為C [通道數]的向量。該向量将與輸入U相乘。由于我們要“學習”注意力，是以我們需要該向量是可訓練的。是以PRIDNet實施的過程是，首先對輸入進行全局平均池化，然後從2個全連接配接層傳遞它，其結果應該是帶有通道數的向量。這些是注意權重μ。

多尺度特征提取子產品/金字塔子產品

這是整個體系結構的核心。在這裡，我們将使用給定核心大小的平均池化。這将對圖像進行下采樣。然後，我們将對其應用U-Net架構。我選擇了5個級别的深層U-Net。最後，我們将以與平均池化相同的大小進行上采樣。是以，這會将圖像恢複為與輸入（此子產品的輸入）相同的大小。

我們将使用不同的核心大小執行5次此操作，然後最後将結果連接配接起來。

核心選擇子產品

該子產品的靈感來自介紹選擇性核心網絡的研究論文。該研究論文很好地闡述了該網絡背後的思想，如下所示：

在标準的卷積神經網絡（CNN）中，每一層中的人工神經元的感受野被設計為共享相同的大小。在神經科學界衆所周知，視覺皮層神經元的感受野大小是受刺激調節的，在建構CNN時很少考慮。

設計了一個稱為選擇性核心（SK）單元的建構塊，其中使用softmax注意融合了核心大小不同的多個分支，這些注意由這些分支中的資訊指導。對這些分支的不同關注會導緻融合層中神經元有效接受場的大小不同。

此子產品與“通道注意力”子產品非常相似。根據PRIDNet論文，大小為C的合成矢量α，β，γ分别表示對U’，U’和U’’的柔和注意。

整個PRIDNet架構圖如下所示，

結果如下：

可以看到，與先前讨論的體系結構相比，該體系結構可提供最佳結果。在上面的眼睛特寫圖像中，請注意去噪圖像中眼球的細節水準！

嘈雜圖像中的黑色書籍[Cropped Library books]。它們幾乎與周圍的棕色家具沒有差別。一切似乎都是黑色的。但是，我們的模型能夠以至少可以區分書籍和周圍家具的方式對其進行去噪。第二張圖檔[裁剪的圖書館家具]也是如此。在嘈雜的圖像中，您可以看到家具非常黑，頂部似乎幾乎是黑色的。但是，我們的模型能夠了解棕色并對其進行去噪。這太神奇了！

該體系結構的PSNR得分為33.3105，SSIM得分為0.8534。

結果對比

我們可以清楚地看到PRIDNet是性能最佳的體系結構，用于消噪單個圖像的時間最少。

現在，我們比較一下NLM濾波器和PRIDNet的結果。

要比較的關鍵領域

黃色卡車的車頂區域
橙色卡車的座位
藍色卡車中的橙色大燈
藍色卡車的車頂（觀察陰影）
地闆中間的兩個細條紋

還有很多

未來的工作和改進範圍

圖像去噪是一個活躍的研究領域，并且時不時地有許多驚人的架構正在開發以對圖像進行去噪。最近，研究人員正在使用GAN來對圖像進行降噪，事實證明，這種方法會産生令人驚訝的結果。好的GAN架構肯定會進一步改善去噪效果。

引用

https://medium.com/image-vision/noise-in-digital-image-processing-55357c9fab71 (What is noise?)
https://www.youtube.com/watch?v=Va4Rwoy1v88&ab_channel=DigitalSreeni (Non-Local Means)
https://www.eecs.yorku.ca/~kamel/sidd/dataset.php (SIDD dataset)
http://adrianbarburesearch.blogspot.com/p/renoir-dataset.html (RENOIR dataset)
https://commons.wikimedia.org/wiki/Natural_Image_Noise_Dataset#Tools (NIND dataset)
https://arxiv.org/pdf/1606.08921.pdf (REDNet)
https://arxiv.org/pdf/1805.07071.pdf (MWCNN)
https://arxiv.org/pdf/1908.00273.pdf (PRIDNet)
https://arxiv.org/pdf/1505.04597.pdf (U-Net)
https://arxiv.org/pdf/1903.06586.pdf (Selective Kernel Networks)
https://www.eecis.udel.edu/~amer/CISC651/IEEEwavelet.pdf (Wavelets)
https://towardsdatascience.com/what-is-wavelet-and-how-we-use-it-for-data-science-d19427699cef (Wavelets)
http://gwyddion.net/documentation/user-guide-en/wavelet-transform.html (Wavelet transforms)

本文代碼位址：https://github.com/chintan1995/Image-Denoising-using-Deep-Learning

作者：Chintan Dave

原文位址：https://medium.com/towards-artificial-intelligence/image-de-noising-using-deep-learning-1a8334c81f06

deephub翻譯組