經典CNN模型整理

關于卷積神經網絡CNN，網絡和文獻中有非常多的資料，我在工作/研究中也用了好一段時間各種常見的model了，就想着簡單整理一下，以備查閱之需。如果讀者是初接觸CNN，建議可以先看一看“Deep Learning（深度學習）學習筆記整理系列”中關于CNN的介紹[1]，是介紹我們常說的Lenet為例，相信會對初學者有幫助。

Lenet，1986年
Alexnet，2012年
GoogleNet，2014年
VGG，2014年
Deep Residual Learning，2015年

Lenet

就從Lenet說起，可以看下caffe中lenet的配置檔案（點我），可以試着了解每一層的大小，和各種參數。由兩個卷積層，兩個池化層，以及兩個全連接配接層組成。卷積都是5*5的模闆，stride=1，池化都是MAX。下圖是一個類似的結構，可以幫助了解層次結構（和caffe不完全一緻，不過基本上差不多）

經典CNN模型整理

Alexnet

2012年，Imagenet比賽冠軍的model——Alexnet [2]（以第一作者alex命名）。caffe的model檔案在這裡。說實話，這個model的意義比後面那些model都大很多，首先它證明了CNN在複雜模型下的有效性，然後GPU實作使得訓練在可接受的時間範圍内得到結果，确實讓CNN和GPU都大火了一把，順便推動了有監督DL的發展。

模型結構見下圖，别看隻有寥寥八層（不算input層），但是它有60M以上的參數總量，事實上在參數量上比後面的網絡都大。

經典CNN模型整理

這個圖有點點特殊的地方是卷積部分都是畫成上下兩塊，意思是說吧這一層計算出來的feature map分開，但是前一層用到的資料要看連接配接的虛線，如圖中input層之後的第一層第二層之間的虛線是分開的，是說二層上面的128map是由一層上面的48map計算的，下面同理；而第三層前面的虛線是完全交叉的，就是說每一個192map都是由前面的128+128=256map同時計算得到的。

Alexnet有一個特殊的計算層，LRN層，做的事是對目前層的輸出結果做平滑處理。下面是我畫的示意圖：

經典CNN模型整理

前後幾層（對應位置的點）對中間這一層做一下平滑限制，計算方法是：

經典CNN模型整理

具體打開Alexnet的每一階段（含一次卷積主要計算）來看[2][3]：

（1）con - relu - pooling - LRN

經典CNN模型整理

具體計算都在圖裡面寫了，要注意的是input層是227*227，而不是paper裡面的224*224，這裡可以算一下，主要是227可以整除後面的conv1計算，224不整除。如果一定要用224可以通過自動補邊實作，不過在input就補邊感覺沒有意義，補得也是0。

（2）conv - relu - pool - LRN

經典CNN模型整理

和上面基本一樣，唯獨需要注意的是group=2，這個屬性強行把前面結果的feature map分開，卷積部分分成兩部分做。

（3）conv - relu

經典CNN模型整理

（4）conv-relu

經典CNN模型整理

（5）conv - relu - pool

經典CNN模型整理

（6）fc - relu - dropout

經典CNN模型整理

這裡有一層特殊的dropout層，在alexnet中是說在訓練的以1/2機率使得隐藏層的某些neuron的輸出為0，這樣就丢到了一半節點的輸出，BP的時候也不更新這些節點。

（7）

fc - relu - dropout

經典CNN模型整理

（8）fc - softmax

經典CNN模型整理

以上圖借用[3]，感謝。

GoogleNet

googlenet[4][5]，14年比賽冠軍的model，這個model證明了一件事：用更多的卷積，更深的層次可以得到更好的結構。（當然，它并沒有證明淺的層次不能達到這樣的效果）

經典CNN模型整理

這個model基本上構成部件和alexnet差不多，不過中間有好幾個inception的結構：

經典CNN模型整理

是說一分四，然後做一些不同大小的卷積，之後再堆疊feature map。

計算量如下圖，可以看到參數總量并不大，但是計算次數是非常大的。

經典CNN模型整理

VGG

VGG有很多個版本，也算是比較穩定和經典的model。它的特點也是連續conv多，計算量巨大（比前面幾個都大很多）。具體的model結構可以參考[6]，這裡給一個簡圖。基本上組成建構就是前面alexnet用到的。

經典CNN模型整理

下面是幾個model的具體結構，可以查閱，很容易看懂。

經典CNN模型整理

Deep Residual Learning

這個model是2015年底最新給出的，也是15年的imagenet比賽冠軍。可以說是進一步将conv進行到底，其特殊之處在于設計了“bottleneck”形式的block（有跨越幾層的直連）。最深的model采用的152層！！下面是一個34層的例子，更深的model見表格。

經典CNN模型整理

其實這個model構成上更加簡單，連LRN這樣的layer都沒有了。

經典CNN模型整理

block的構成見下圖：

經典CNN模型整理

總結

OK，到這裡把常見的最新的幾個model都介紹完了，可以看到，目前cnn model的設計思路基本上朝着深度的網絡以及更多的卷積計算方向發展。雖然有點暴力，但是效果上确實是提升了。當然，我認為以後會出現更優秀的model，方向應該不是更深，而是簡化。是時候動一動卷積計算的形式了。

參考資料

[1] http://blog.csdn.net/zouxy09/article/details/8781543/

[2] ImageNet Classification with Deep Convolutional Neural Networks

[3] http://www.voidcn.com/blog/sunbaigui/article/p-191721.html

[4] http://www.voidcn.com/blog/csyhhb/article/p-2090506.html [5] Going deeper with convolutions [6] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

經典CNN模型整理

Lenet

Alexnet

GoogleNet

VGG

Deep Residual Learning

總結

參考資料

繼續閱讀

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

通俗了解查準率(precision)和查全率(recall)

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告