天天看點

圖像識别-VGGNet論文筆記

個人微信公衆号:AI研習圖書館,歡迎關注~

深度學習知識及資源分享,學習交流,共同進步~

論文題目:Very Deep Convolutional Networks for Large-scale Image Recognition

1.引言

這篇文章主要探究了在大規模圖像識别任務中,卷積網絡深度對模型準确度的影響。使用帶有非常小(3×3)卷積濾波器的體系結構對深度增加的網絡進行全面評估。

VGG論文給出了一個非常振奮人心的結論:卷積神經網絡的深度增加和小卷積核的使用對網絡的最終分類識别效果有很大的作用。記得在AlexNet論文中,最後也指出了網絡深度的增加對最終的分類結果有很大的作用。這篇論文則更加直接的論證了這一結論。

2. 網絡結構

圖像識别-VGGNet論文筆記

3. 論文總結

這篇文章提出了相對于AlexNet更深的網絡模型,并且通過實驗發現網絡越深性能越好(在一定範圍内)。

在網絡中,使用了更小的卷積核(3x3),stride為1,同時不單單的使用卷積層,而是組合成了“卷積組”,即一個卷積組包括2-4個3x3卷積層,有的層也有1x1卷積層,是以網絡更深,網絡使用2x2的max pooling,在full-image測試時候把最後的全連接配接層改為全卷積層,重用訓練時的參數,使得測試得到的全卷積網絡因為沒有全連接配接的限制,因而可以接收任意寬或高為的輸入。

另外VGGNet卷積層有一個顯著的特點:特征圖的空間分辨率單調遞減,特征圖的通道數單調遞增,這是為了更好地将HxWx3(1)的圖像轉換為1x1xC的輸出,之後的GoogLeNet與Resnet都是如此。另外文章中4個VGG訓練時參數都是通過pre-trained 網絡A進行初始指派。在VGG不同版本的網絡模型,較為流行的是VGG-16,與VGG-19。

VGG-Net與GoogLe-Net的對比總結:GoogLeNet和VGG的分類模型從原理上并沒有與傳統的CNN模型有太大不同。大家所用的Pipeline也都是:訓練時候:各種資料Augmentation(剪裁,不同大小,調亮度,飽和度,對比度,偏色),剪裁送入CNN模型,Softmax,Backprop。測試時候:盡量把測試資料又各種Augmenting(剪裁,不同大小),把測試資料各種Augmenting後在訓練的不同模型上的結果再繼續Averaging出最後的結果。

圖像識别-VGGNet論文筆記

繼續閱讀