卷積神經網絡（CNN）新手指南

引言

卷積神經網絡：聽起來像是生物與數學還有少量計算機科學的奇怪結合，但是這些網絡在計算機視覺領域已經造就了一些最有影響力的創新。2012年神經網絡開始嶄露頭角，那一年alex krizhevskyj在imagenet競賽上（imagenet可以算是競賽計算機視覺領域一年一度的“奧運會”競賽）将分類錯誤記錄從26%降低到15%，這在當時是一個相當驚人的進步。從那時起許多公司開始将深度學習應用在他們的核心服務上，如facebook将神經網絡應用到他們的自動标注算法中，google（谷歌）将其應用到圖檔搜尋裡，amazon（亞馬遜）将其應用到産品推薦服務，pinterest将其應用到首頁個性化資訊流中，instagram也将深度學習應用到它們的圖像搜尋架構中。

然而最經典的，或者說最流行的神經網絡使用範例是将其用于圖像處理領域。提到圖像處理，本文主要介紹的是如何使用卷積神經網絡來進行圖像分類。

問題空間

圖像分類是将輸入圖像（貓、狗等）進行分類輸出或者将其分類成最能描述圖像特征的類别的任務。對于人類來說，認知是我們出生之後就學會的第一個技能，也是作為成年人來說非常自然和輕松的技能。我們可以毫不猶豫迅速識别出我們周圍的環境以及物體，當我們看到一張圖檔或者觀察周遭環境時，大部分時間我們都能馬上對場景做出判斷并且給每個物體都打上辨別，這些甚至都不需要刻意去觀察。這些技能能夠迅速識别其模式，從我們以前的經驗中做出推論，然後将其運用至不同的圖檔或者環境中——這些都是我們與機器不同的地方。

輸入與輸出

當計算機看到一張圖檔時（即輸入一張圖檔），它所看到的是一系列的像素值。根據圖檔的分辨率與大小，計算機将看到的是一個32×32×3的數字陣列（3指代的是rgb—顔色值）。我們稍微将一下這個，假設我們有一張480 x 480的jpg格式圖檔，它的表達陣列即為480 x 480 x 3。這些數字中的每一個值都可以從0取到255，它描述了在這一點上的像素強度。這些數字雖然對于我們進行圖像分類時沒有任何意義，但其卻是計算機在圖像輸入時唯一擷取的資料。這個理念就是你給電腦指定相關資料排列，它将圖像是一個特定的類别的可能性進行輸出（如80—貓，15—狗，05—鳥等）。

我們希望電腦做什麼

現在我們了解到問題是在輸入和輸出上，讓我們來考慮如何解決這個問題。我們希望電腦能做到的是在所有的給定圖像中分辨出不同的類别，它能找到那些“狗之是以是狗”或者“貓之是以是貓”的特性。這個就是在我們的頭腦中潛意識裡進行認知識别的過程，當我們看到一張狗的圖像時，我們能夠将其分類因為圖像上有爪子或者四條腿等明顯的特征。以類似的方式計算機能夠進行圖像分類任務，通過尋找低層次的特征如邊緣和曲線，然後運用一系列的卷積層建立一個更抽象的概念。這是卷積神經網絡應用的一個總體概述，接下來我們來探讨下細節。

生物聯系

首先要稍微普及下一點背景知識，當你第一次聽到卷積神經網絡這個詞時，你也許會想這是是不與神經科學或者生物學有關？恭喜你，猜對了一部分。卷積神經網絡的确從生物學上的視覺皮層得到啟發，視覺皮層有微小區域的細胞對于特定區域的視野是十分敏感的。

1962年，hubel和 wiesel發現大腦中的部分神經元隻對一定的方向的邊緣做出回應。例如，當暴露在垂直邊緣或者一些當水準或對角線邊緣時，一些神經元才會做出回應。hubel和 wiesel發現，所有這些神經元都被架構在一個柱狀結構中，這樣的架構使它們能夠産生視覺感覺。系統中的特定成員可以完成特定任務這種理念（神經細胞在視覺皮層中尋找特定的特征）也能很好地應用在機器學習上，這也是卷積神經網絡的基礎。

架構

對于卷曲神經網絡更詳細的介紹是将圖檔通過一系列的卷積、非線性、池（采樣）、全連接配接層，然後得到一個輸出。正如我們前面所說的，輸出是一個類或者一個圖像類别的可能性機率。現在，困難的部分是了解每一層的任務。

第一層—數學

卷積神經網絡的第一層是卷積層，第一件事是你要記住卷曲層的輸入時什麼。像我們之前提到的，輸入的是一個32×32×3的系列像素值。解釋卷積層的最好方式是想象一個手電筒正在圖像的左上方進行照射，假設手電照射的區域是5 x 5的範圍。再想象下這個手電筒在輸入圖像的各個區域進行滑動。在機器學習術語中，這個手電筒叫做過濾器（有時候也稱為神經元或者核心），它照射着的區域被稱為接受場。這個過濾器也是一系列的資料（這些資料被稱為權重或者參數）。必須提到的是這個過濾器的深度必須是和輸入的深度相同（這樣才能保證數學正常工作），是以這個過濾器的尺寸是5×5×3。現在，讓我們先拿第一個位置的過濾器為例。由于過濾器在輸入圖像上是滑動或卷積的，它是相乘的值在濾波器的原始圖像的像素值（又名計算元素的乘法），這些乘法全部相加（從數學上講，這将是75次乘法總和）。是以現在你有一個數字。請記住，這個數字隻是當過濾器在圖像的左上角時才有代表性，現在我們在每一個位置上重複這個過程。（下一步将過濾器移動到右邊的1個機關，然後再向右移動1個機關，等等），每一個輸入層上獨特的位置都會産生一個數字。将過濾器滑動完所有位置的，你會發現剩下的是一個28×28×1的系列數字，我們稱之為激活圖或者特征圖。你得到一個28×28陣列的原因是有784個不同的位置，一個5×5的過濾器可以适配一個32×32的輸入圖像，這組784個數字可以被映射到一個28×28陣列。

目前我們使用兩個5 x 5 x 3的過濾器，我們的輸出量将是28×28×2。通過使用更多的過濾器，我們能夠更好地維持空間尺寸。在數學層面上來說，這些是在一個卷積層中進行的任務。

第一層—高階視角

讓我們從高階角度來談談這個卷積層的任務，這些過濾器中每個都可以被認為是特征辨別符。當我說特征時，我說的是如直邊、簡單的顔色和曲線等。思考一下，所有的圖像都有同樣的最簡單的特征。我們的第一個過濾器是7×7×3，而且是一個曲線探測器。（在這一部分讓我們忽略一個事實，過濾器是3個機關深的，隻考慮頂部過濾器的深度和圖像。）作為一個曲線檢測器，過濾器将有一個更高的數值且有曲線的形狀的像素結構（記住關于這些過濾器，我們考慮的隻是數字）。

現在，讓我們回到數學可視化部分。當我們在輸入的左上角有了這種濾波器後，它會在哪個區域的過濾器和像素值之間計算乘積。現在讓我們以一個我們要分類的圖像為例，把我們的過濾器放在左上角。

記住，我們需要做的是使用圖像中的原始像素值在過濾器中進行乘積。

基本上在輸入圖像中，如果有一個形狀是類似于這種濾波器的代表曲線，那麼所有的乘積累加在一起會導緻較大的值！現在讓我們看看當我們移動我們的過濾器時會發生什麼。

檢測值竟然要低得多！這是因為在圖像中沒有任何部分響應曲線檢測過濾器。記住，這個卷積層的輸出是一個激活圖。是以，在簡單的情況下一個過濾器的卷積（如果該過濾器是一個曲線檢測器），激活圖将顯示其中大部分可能是在圖檔中的曲線區域。在這個例子中，我們的28×28×1激活圖左上方的值将是6600，這種高值意味着很可能是在輸入中有某種曲線導緻了過濾器的激活。因為沒有任何東西在輸入使過濾器激活（或更簡單地說，在該地區的原始圖像沒有一個曲線），其在我們的激活圖右上方的值将是0。記住，這僅僅隻是一個過濾器。這個過濾器将檢測線向外和右邊的曲線，我們可以有其他的曲線向左或直接到邊緣的過濾器線條。過濾器越多，激活圖越深，我們從于輸入中擷取的資訊也就越多。

聲明：在這一節中描述的過濾器是簡化的，其主要目的是描述在一個卷積過程中的數學過程。在下圖中你會看到一些對訓練過的網絡中第一個卷積層的過濾器的實際顯示示例，盡管如此，主要的論據仍然是相同的。

進一步深入網絡

現在展示一個傳統的卷積神經網絡結構，還有其他層在這些層之間穿插轉換。強烈建議那些有興趣的讀者去了解他們的功能和作用，但一般來說他們提供的非線性和尺寸留存有助于提高網絡的魯棒性，同時還能控制過度拟合。一個經典的卷積神經網絡架構看起來是這樣的：

然而，最後一層是非常重要的内容，不過我們将在後面提到。讓我們退後一步，回顧一下我們目前提到的東西。我們談到了第一個卷積層的過濾器被設計用來探測。他們檢測到低階的特征如邊緣和曲線。正如想象的那樣，為了預測圖像的類型，我們需要神經網絡能夠識别更高階的特征，如手、爪子、耳朵。讓我們考慮經過第一層卷積層後網絡的輸出是什麼，這将是一個28×28×3的體量（假設我們使用三個5×5×3過濾器）。當穿過另一個卷積層時，卷積層的第一輸出成為第二卷積層的輸入，這有難以視覺化想象。當我們談論第一層時，輸入的隻是原始圖像。然而，當我們談論第二個卷積層時，輸入是第一層的結果激活圖（s）。是以，每一層的輸入基本上是描述某些低階特征在原始圖像中的位置。現在當你應用一組過濾器（通過第二卷積層），輸出将被激活且代表更高階的特征。這些特征的類型可能是半圓（曲線和直線邊緣的組合）或方形（幾個直邊的組合）。當通過網絡、更多的卷積層，可以激活地圖，代表更多和更複雜的特征。在神經網絡的結束，可能有一些激活的過濾器，表示其在圖像中看到手寫字迹或者粉紅色的物體時等等。另一個有趣的事情是當你在網絡往更深的地方探索時，過濾器開始有越來越大的接受場，這意味着他們能夠從一個更大的區域或者更多的原始輸入量接收資訊。

全連接配接層

現在我們可以檢測到這些高階特征，錦上添花的是在神經網絡的末端連接配接一個全連接配接層。這層基本上将一個輸入量（無論輸出是卷積或relu或池層）和輸出一個n是程式選擇類别的n維向量，具體過程如下圖所示。這個全連接配接層的工作方式是，它着眼于前一層的輸出（代表高階特征的激活圖），并确定哪些功能是最相關特定的類。例如如果該程式預測，一些圖像是一隻狗，它在激活圖中會有高的值，代表高階特征如一個爪子或4條腿等。類似地，如果該程式是預測一些圖像是鳥的功能，它在激活圖中會有高階值，代表高階特征如如翅膀或喙等。

訓練過程

訓練工程作為神經網絡的一個部分，我之前故意沒有提到，因為它有可能是最重要的一部分。閱讀時你可能會遇到有很多問題，例如第一個卷積層中過濾器如何知道尋找邊緣和曲線？全連接配接層如何知道激活圖在哪裡？每一層的過濾器如何知道有什麼樣的值？計算機能夠調整其過濾值（或權重）的方式是通過一個稱為反向傳播的訓練過程。

在我們介紹反向傳播之前，我們必須先回顧下談談神經網絡運作所需要的是什麼。在我們出生的那一刻，我們的思想是全新的，我們不知道什麼是貓，什麼是鳥。類似地，在卷積神經網絡開始之前，權重或過濾器的值是随機的，過濾器并不知道去尋找邊緣和曲線，在更高階的層過濾器不知道去尋找爪子和喙。然而當我們稍微大了一點之後，我們的父母和老師給我們展示了不同的圖檔和圖像，并給了我們一個相應的标簽。給圖像以标簽這個想法既是卷積神經網絡（cnns）的訓練過程。在講到它之前，讓我們稍微介紹下我們有一個訓練集，其中有成千上萬的狗，貓和鳥類的圖像，每一個圖像有一個标簽對應它是什麼動物的圖檔。

反向傳播可以分為4個不同的部分：前向傳播、損失計算、反向傳播、權重更新。在前向傳播的過程中，你需要一個數字陣列為32×32×3的訓練圖像，并将其傳遞通過整個網絡。在我們的第一個訓練例子中，所有的權重或過濾器的值被随機初始化，輸出可能是類似[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]的東西，基本上是一個不能優先考慮任何數字的輸出。目前權重的網絡是無法尋找那些低階的功能，是以也無法對分類可能性作出任何合理的結論。這就到了反向傳播中的損失計算部分。我們現在使用的是訓練資料，此資料有一個圖像和一個标簽。比方說，第一個輸入的訓練圖像是一個3，則該圖像的标簽将是[ 0 0 1 0 0 0 0 0 ]。損失計算可以按許多不同的方式定義，但常見的是mse（均方差）—½倍（實際預測）的平方。

假設變量l等于這個值，正如你想象的，對于第一組訓練圖像來說損失将是非常高的。現在，讓我們更直覺地來進行思考。我們想得到一個點的預測标簽（convnet的輸出）作為訓練相同的訓練标簽（這意味着我們的網絡預測正确）。為了實作則這個，我們要盡量減少我損失量。可視化在微積分上隻是一個優化問題，我們需要找出哪些輸入是（在我們的例子中的權重）最直接導緻網絡的損失（或錯誤）所在。

這是一個dl／dw的數學等價，其中w是在一個特定層的權重。現在我們要做的通過網絡是執行一個反向傳播過程，檢測哪個權重損失最大并且尋找方法來調整它們使損失降低。一旦我們将這個計算過程進行完，就可以到最後一步—權重更新。把所有的過濾器的權重進行更新，使它們在梯度方向上進行改變。

學習速率是由程式員選擇的一個參數。一個高的學習率意味着更多步驟是在權重更新部分，是以它可能需要更少的時間為最佳的權重在模型上進行收斂。然而學習率太高，可能會導緻跨越太大而不夠精準達到最佳點。

前向傳播、損失計算、反向傳播、參數更新的過程也稱為一個epoch。程式會對于每一個固定數量的epoch、每個訓練圖像重複這一過程。在最後一個訓練例子中完成了參數更新後，網絡應該都訓練的足夠好了，各層的權重也應該調參正确了。

測試

最後要來測試我們的卷積神經網絡是否工作，将不同的圖檔和标簽集通過卷積神經網絡，将輸出結果與真實值進行對比，即可測試出其是否正常運作。

業界如何使用卷積神經網絡

資料，資料，資料。給一個卷積神經網絡的更多的訓練資料，可以做的更多的訓練疊代，也就能實作更多的權重更新，對神經網絡進行更好的調參。facebook（還有instagram）可以使用數以億計的使用者目前的所有照片，pinterest可以使用在其網站上的500億的資訊，谷歌可以使用搜尋資料，亞馬遜可以使用每天數以百萬計的産品購買資料。

現在你知道他們是如何使用這些的魔法了，有興趣的話可以自己嘗試一下。

本文作者：李尊

卷積神經網絡（CNN）新手指南

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡