天天看點

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

Rethinking the Inception Architecture for Computer Vision

簡述:

我們将通過适當的因子卷積(factorized convolutions)和主動正則化(aggressive regularization),以盡可能有效地利用增加的計算量的方式來解釋如何擴充網絡。并提出了Inception-v3網絡架構,在ILSVRC 2012的分類任務中進行測試,錯誤率更低,達到了21.2% top-1 and 5.6% top-5 error。VGGNet雖然架構簡單,但網絡需要大量的計算。在本文中,我們首先描述了一些基本原理和優化思想,并證明對有效地擴充卷積網絡非常有用,這是通過大量使用在inception子產品的增加次元和并行結構來實作的,它允許減輕結構更改對附近元件的影響。

本文通過以下4個原則來改進原有的Inception網絡:

1.避免典型的瓶頸,特别是在網絡的初期。

2.高維表示更容易在網絡中局部實作。

3.空間聚合可以通過更低次元的嵌入來實作,而不會損失太多或任何表示能力。

4.平衡網絡的寬度和深度。

問題or相關工作:

1.輔助分級機(Auxiliary Classifiers):側分支(side head)機制再實際測試中沒有很大的作用,有無側分支并沒有對結果有較大的影響,但如果側分支是批處理規範化的[7]或具有dropout層,則網絡的主分類器的性能會更好,這一點得到了支援。下圖截取Inception-v1模型的部分,圖中右側的黃色部分即為側分支(side head)

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

2.Efficient Grid Size Reduction:傳統上,卷積網絡使用一些池操作來減小特征圖的網格大小。為了避免典型的瓶頸,在應用最大池或平均池之前,将擴充網絡過濾器的次元。

3.Performance on Lower Resolution Input:實驗表明,雖然高分辨輸入的資料網絡的準确率高,并且網絡的性能較好,但是現有資料集同樣存在低分辨率的資料。本文為了使分辨率不對準确率有大幅的改變,即為了做出準确的評估,模型需要分析模糊的提示,以便能夠“幻覺”出細節,在下圖的測試中,有了很好的效果。

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

1)299×299 field size,步長為2,第一層後有最大池化。

2)151×151 field size,步長為1,第一層後有最大池化。

3)79×79 field size,步長為1,第1層後未使用最大池化。

上表可以說明,雖然低分辨率的網絡需要更長的時間來訓練,但最終的結果品質與高分辨率的網絡相當接近。

模型:

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

A)普通Inception模型

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

B)将Inception子產品中的5×5卷積替換為兩個3×3卷積

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

C)對n×n卷積層的拆分為n×1和1×n

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

D)将上面卷積filter分解的思路進一步改進,将3×3卷積分解3×1和1×3 filter

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

E )減少網格大小的兩種替代方法。但左邊的這種做法違反了第一條原則,即避免引入典型的瓶頸瓶頸;右邊的做法在計算量上要多3倍。

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

F)Inception子產品,減少了網格大小,而擴大了filter banks(過濾器組)。它不僅參數少而且避免了原則1所說的bottleneck。右邊的圖表代表了相同的解決方案,但是是從網格大小而不是操作的角度來看的。

卷積神經網絡架構三:Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

該表為本篇論文預設的網絡架構,隻要遵守原先提出的原則,網絡的品質就會相對穩定。雖然我們的網絡有42層,但是我們的計算成本隻比GoogLeNet高2.5左右,而且它的效率仍然比VGGNet高很多。其中,圖中figure 5為B圖,figure 6為C圖,figure 7為D圖。

成果:

本文提供了幾個擴充卷積網絡的設計原則,并在Inception架構中研究了它們。這些原則可以創造出較高性能的網絡,與更簡單、更單一的架構相比,其計算成本相對較低。同時,本文還證明了在接受域分辨率低至79×79的情況下可以獲得高品質的結果,這個突破可能在未來對探測相對較小的物體的系統有幫助。

繼續閱讀