LeNet-5網絡模型學習總結
模型結構
LeNet-5網絡模型是一個很典型且小巧的深度學習網絡模型。主要結構為:

主要分為7層(不包含輸入層),主要是卷積層、池化層、全連接配接層以及最後使用softmax函數作為輸出層。
流程了解
圖像輸入後統一格式為 32 ∗ 32 32*32 32∗32大小的圖檔資料,再将資料導入卷積層,卷積層包含6個 5 ∗ 5 5*5 5∗5大小的卷積核,是以經過卷積層後,輸出的神經元參數是 28 ∗ 28 ∗ 6 28*28*6 28∗28∗6(28是因為 ( 32 − 5 + 0 ) / 1 + 1 (32-5+0)/1+1 (32−5+0)/1+1,其中原圖像的高為32,卷積核高為5,補充的圖像邊距為0,步距設為1;利用6個不同的卷積核提取紋理特征,圖像通道數為1,最終生成6維的神經中繼資料),則在整個訓練過程中,這一步需要訓練 ( 5 ∗ 5 + 1 ) ∗ 6 (5*5+1)*6 (5∗5+1)∗6個參數,其中5*5是指卷積和中每個值,‘+1’是指每個次元下增加一個可訓練的偏置量b.
在卷積層之後需要對整個資料進行池化處理,池化操作對應的資料次元為 28 ∗ 28 ∗ 6 28*28*6 28∗28∗6,采樣的區域大小為: 2 ∗ 2 2*2 2∗2,最終整個資料的大小成為 ( 28 / 2 ) ∗ ( 28 / 2 ) ∗ 6 (28/2)*(28/2)*6 (28/2)∗(28/2)∗6,每個特征圖是原特征圖的 1 4 \frac{1}{4} 41大小。池化過程是對每一個 2 ∗ 2 2*2 2∗2區域求和後乘以一個權重,并加上一個偏置量 b ′ b^{'} b′.
再将以上輸出的特征圖進行卷積操作。使用16個 5 ∗ 5 5*5 5∗5大小的卷積核,是以經過這一層,特征圖大小變為高和寬為 ( 14 − 5 + 0 ) / 1 + 1 = 10 (14-5+0)/1+1=10 (14−5+0)/1+1=10的特征圖,特征圖的次元成為16.然而與之前不同的是,這16個卷積核不是都從頭到尾與特征圖進行卷積操作,而是配置設定前6個卷積核隻與特征圖的3個相連特征子圖卷積,再配置設定6個與4個相連的特征子圖卷積,3個與不相連的特征子圖卷積,再配置設定剩下的與所有的特征子圖卷積。通過這種配置設定方式,可以減少參數的同時也有利于提取多種特征資訊。
緊接另一個池化層,同樣的,采樣區域為 2 ∗ 2 2*2 2∗2,最終輸出的特征圖大小為 5 ∗ 5 ∗ 16 5*5*16 5∗5∗16
接下來與卷積層相連接配接,卷積核一共120個,同樣也是 5 ∗ 5 5*5 5∗5大小的,最終輸出特征圖大小為 ( 5 − 5 + 0 ) / 1 + 1 = 1 (5-5+0)/1+1=1 (5−5+0)/1+1=1,即為 1 ∗ 1 1*1 1∗1大小的,這次卷積核與上層輸出的特征圖中每一個特征子圖進行卷積。
第6層是全連接配接層,計算輸入向量和權重向量之間的點積,再加上一個偏置,結果通過sigmoid函數輸出。設定84個權重值,84個節點,對應于一個7x12的比特圖,-1表示白色,1表示黑色,這樣每個符号的比特圖的黑白色就對應于一個編碼。
Output層也是全連接配接層,共有10個節點,分别代表數字0到9,且如果節點i的值為0,則網絡識别的結果是數字i。采用的是徑向基函數(RBF)的網絡連接配接方式。
參考資料
[1] Lecun Y L , Bottou L , Bengio Y , et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[2]https://cuijiahua.com/blog/2018/01/dl_3.html