卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

2023-04-20 14:05:49

Rethinking the Inception Architecture for Computer Vision

簡述：

我們将通過适當的因子卷積(factorized convolutions)和主動正則化(aggressive regularization)，以盡可能有效地利用增加的計算量的方式來解釋如何擴充網絡。并提出了Inception-v3網絡架構，在ILSVRC 2012的分類任務中進行測試，錯誤率更低，達到了21.2% top-1 and 5.6% top-5 error。VGGNet雖然架構簡單，但網絡需要大量的計算。在本文中，我們首先描述了一些基本原理和優化思想，并證明對有效地擴充卷積網絡非常有用，這是通過大量使用在inception子產品的增加次元和并行結構來實作的，它允許減輕結構更改對附近元件的影響。

本文通過以下4個原則來改進原有的Inception網絡：

1.避免典型的瓶頸，特别是在網絡的初期。

2.高維表示更容易在網絡中局部實作。

3.空間聚合可以通過更低次元的嵌入來實作，而不會損失太多或任何表示能力。

4.平衡網絡的寬度和深度。

問題or相關工作：

1.輔助分級機(Auxiliary Classifiers)：側分支（side head）機制再實際測試中沒有很大的作用，有無側分支并沒有對結果有較大的影響，但如果側分支是批處理規範化的[7]或具有dropout層，則網絡的主分類器的性能會更好，這一點得到了支援。下圖截取Inception-v1模型的部分，圖中右側的黃色部分即為側分支（side head）

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

2.Efficient Grid Size Reduction：傳統上，卷積網絡使用一些池操作來減小特征圖的網格大小。為了避免典型的瓶頸，在應用最大池或平均池之前，将擴充網絡過濾器的次元。

3.Performance on Lower Resolution Input：實驗表明，雖然高分辨輸入的資料網絡的準确率高，并且網絡的性能較好，但是現有資料集同樣存在低分辨率的資料。本文為了使分辨率不對準确率有大幅的改變，即為了做出準确的評估，模型需要分析模糊的提示，以便能夠“幻覺”出細節，在下圖的測試中，有了很好的效果。

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

1）299×299 field size，步長為2，第一層後有最大池化。

2）151×151 field size，步長為1，第一層後有最大池化。

3）79×79 field size，步長為1，第1層後未使用最大池化。

上表可以說明，雖然低分辨率的網絡需要更長的時間來訓練，但最終的結果品質與高分辨率的網絡相當接近。

模型：

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

A）普通Inception模型

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

B）将Inception子產品中的5×5卷積替換為兩個3×3卷積

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

C）對n×n卷積層的拆分為n×1和1×n

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

D）将上面卷積filter分解的思路進一步改進，将3×3卷積分解3×1和1×3 filter

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

E ）減少網格大小的兩種替代方法。但左邊的這種做法違反了第一條原則，即避免引入典型的瓶頸瓶頸；右邊的做法在計算量上要多3倍。

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

F）Inception子產品，減少了網格大小，而擴大了filter banks(過濾器組)。它不僅參數少而且避免了原則1所說的bottleneck。右邊的圖表代表了相同的解決方案，但是是從網格大小而不是操作的角度來看的。

卷積神經網絡架構三：Google網絡--v3:Rethinking the Inception Architecture for Computer Vision

該表為本篇論文預設的網絡架構，隻要遵守原先提出的原則，網絡的品質就會相對穩定。雖然我們的網絡有42層，但是我們的計算成本隻比GoogLeNet高2.5左右，而且它的效率仍然比VGGNet高很多。其中，圖中figure 5為B圖，figure 6為C圖，figure 7為D圖。

成果：

本文提供了幾個擴充卷積網絡的設計原則，并在Inception架構中研究了它們。這些原則可以創造出較高性能的網絡，與更簡單、更單一的架構相比，其計算成本相對較低。同時，本文還證明了在接受域分辨率低至79×79的情況下可以獲得高品質的結果，這個突破可能在未來對探測相對較小的物體的系統有幫助。

深度神經網絡基礎架構深度學習神經網絡架構 Google網絡 inception

上一篇: 卷積神經網絡圖解

下一篇: Python與人工神經網絡（2）——使用神經網絡識别手寫圖像

繼續閱讀