天天看點

inception v1motivations:Inception最初原形:

inception系列的開山之作,有網絡結構設計的初期思考。

      Going deeper with convolutions

motivations:

  • 提高模型性能的最直接方式:1.加深(增加層)2.加寬(增加單層的神經元個數),帶來的兩個弊端:1.大規模的參數易導緻過拟合且需要更多的訓練集 2.更多的計算資源消耗
  • 解決基本思想是在fc層甚至conv層使用稀疏連接配接結構,原因是

1.生物中神經網絡是稀疏的.

2Arora的實驗說明了,優化大規模的稀疏神經網絡時,可以通過分析激活值的統計特性和聚類相關性高的神經元來逐層建構一個最優網絡。(block設計的來源)。

3.Hebbian 原理:neurons that fire together,wire together(說明神經元相關性)

  • 早期稀疏結構實作缺點,軟硬體對非均勻的稀疏資料計算效率差,反倒是對密集矩陣(dense matrix)效率較高。
稀疏模型 将大量的備援變量去除,隻保留與響應變量最相關的解釋變量,簡化了模型的同時卻保留了資料集中最重要的資訊,有效地解決了高維資料集模組化中的諸多問題。稀疏模型具有更好的解釋性,便于資料可視化、減少計算量和傳輸存儲。1996年Tibshirani把嶺回歸估計的L2範數罰正則化項替換為L1範數罰正則化項得到了Lasso(Least Absolute Shrinkage and Selection Operator, Lasso)。L1範數罰具有産生稀疏模型的能力,使用L1範數罰作為正則化項的Lasso具有變量選擇功能和變量空間降維功能。實際上在Lasso之前已有能夠産生稀疏解的非負絞刑估計 (nonnegative garrote estimator)和橋回歸(bridge regression)模型被提出,但由于缺少高效的求解算法因而沒有引起足夠的重視,而自從Lasso這種稀疏模型以及可對其有效求解的LAR算法(Least Angle Regression, LAR)被提出後,稀疏模型才得到了廣泛深入的研究,并在機器學習、數理統計和生物資訊學等領域逐漸流行起來。
  • 思考:有沒有一種方法,既能保持網絡結構的稀疏性,又能利用密集矩陣(卷積)的高計算性能。而相關文獻表明可以将稀疏矩陣聚類為較為密集的子矩陣來提高計算性能

Inception最初原形:

第一作者Christian Szegedy,評估一個複雜的網絡拓撲結構建構算法的假設輸出,該網絡試圖逼近Arora提出的稀疏結構。

最初結構隻是猜想,然而通過兩輪的疊代後,獲得了不錯的結果。(實驗證明有效)

  • naive inception module:
    inception v1motivations:Inception最初原形:
    說明:1.1x1conv,用于對相關性高的神經元聚類    2.為了避免patch alignment問題,增加3X3,5X5(大感受野的聚類,這麼設計更多的考慮是友善還不是必要性)3.Pool是cnn中有效的操作,是以也加入
  • Naïve的問題,通道堆到後面會越來越多,借鑒NIN,1x1降維

    作者說明,對一個壓縮且密集的特征資訊進行模組化是很難的,是以隻在必要時才壓縮信号

  • inception v1motivations:Inception最初原形:
  • 考慮到目前計算條件,Inception置于較深層,淺層采用傳統卷積
  • 網絡結構:
    inception v1motivations:Inception最初原形:

    1.Block設計。2.Gap代替全連接配接。3.添加dropout(0.7)。4.輔助損失.(權重0.3,在inception 4a和4d的輸出接,作用a增強底層特征差異性b增強梯度信号c提高正則化)
  • 輔助loss:4a和4d
  • inception v1motivations:Inception最初原形:
    inception v1motivations:Inception最初原形:
  • 實驗結果

  • inception v1motivations:Inception最初原形:

标簽: inception, CNN

繼續閱讀