一.背景介紹
vggnet是由牛津大學視覺幾何組和 google deepmind 共同研發的模型。該模型在2014 Image大賽上取得了分類任務的亞軍和定位任務的冠軍。其最主要的特點是:由3*3的卷積核和2*2的最大池化構成模型的主幹網絡。
二.網絡結構
1.vggnet根據權重層層數的不同,可以分為A,B,C,D,E,F五種模型。
- 網絡A:共計11個權值層(8個卷積層+3個全連接配接層)------vgg11
- 網絡B:共計13個權值層(10個卷積層+3個全連接配接層)-------vgg13
- 網絡C:共計16個權值層(13個卷積層+3個全連接配接層)--------vgg16
- 網絡D:共計16個權值層(13個卷積層+3個全連接配接層)---------vgg16
- 網絡E:共計19個權值層(16個卷積層+3個全連接配接層)--------vgg19
2.以上每個類别都将卷積層分為5組,每組的個數一般由1-4個卷積層組成,每組卷積後面2*2的最大池化層,是以共有5個池化層。
3.網絡C和網絡D的不同之處在于用了3個1*1的卷積核,是以網絡C比較異類,目前用的不多了。
4.除最後一個全連接配接層外,所有的全連接配接層和卷積層後面都接relu進行激活。

三.評價:
1.證明的使用小的卷積核增加網絡深度的可能性
2.作者曾在vgg11中增加了局部歸一化操作,但這一操作對模型的效果提升有限。
3.使用3*3卷積核的好處:
1)使用3*3的卷積核是能夠擷取圖像上下左右中心資訊的最小卷積核。
2)兩個3*3的卷積核堆疊相當于一個5*5的卷積核的視野,三個3*3的卷積核堆疊相當于一個7*7的卷積核的視野
(1)擁有更小的參數
(2)相當于組合了多個線性層,這樣使得決策函數識别性更強。