AlexNet将LeNet的思想發揚光大,把CNN的基本原理應用到了很深很寬的網絡中。AlexNet主要使用到的新技術點如下。
(1)成功使用ReLU作為CNN的激活函數,并驗證其效果在較深的網絡超過了Sigmoid,成功解決了Sigmoid在網絡較深時的梯度彌散問題。雖然ReLU激活函數在很久之前就被提出了,但是直到AlexNet的出現才将其發揚光大。
(2)訓練時使用Dropout随機忽略一部分神經元,以避免模型過拟合。Dropout雖有單獨的論文論述,但是AlexNet将其實用化,通過實踐證明了它的效果。在AlexNet中主要是最後幾個全連接配接層使用了Dropout。
(3)在CNN中使用重疊的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果。并且AlexNet中提出讓步長比池化核的尺寸小,這樣池化層的輸出之間會有重疊和覆寫,提升了特征的豐富性。
(4)提出了LRN層,對局部神經元的活動建立競争機制,使得其中響應比較大的值變得相對更大,并抑制其他回報較小的神經元,增強了模型的泛化能力。
ImageNet中的LRN層是按下述公式計算的:
但似乎,在後來的設計中,這一層已經被其它種的Regularization技術,如drop out, batch normalization取代了。知道了這些,似乎也可以不那麼糾結這個LRN了。
轉自:http://blog.csdn.net/searobbers_duck/article/details/51645941
感覺LRN也是解決的梯度消失和爆炸問題。
BN本質上解決的是反向傳播過程中的梯度問題。
詳細點說,反向傳播時經過該層的梯度是要乘以該層的參數的,即前向有:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 那麼反向傳播時便有:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 那麼考慮從l層傳到k層的情況,有:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 上面這個
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 便是問題所在。因為網絡層很深,如果
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 大多小于1,那麼傳到這裡的時候梯度會變得很小比如
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) ;而如果
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 又大多大于1,那麼傳到這裡的時候又會有梯度爆炸問題 比如
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 。
BN所做的就是解決這個梯度傳播的問題,因為BN作用抹去了w的scale影響。
具體有:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) (
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) ) =
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) )
那麼反向求導時便有了:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 可以看到此時反向傳播乘以的數不再和
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 的尺度相關,也就是說盡管我們在更新過程中改變了
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 的值,但是反向傳播的梯度卻不受影響。更進一步:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 即尺度較大的
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 将獲得一個較小的梯度,在同等的學習速率下其獲得的更新更少,這樣使得整體
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 的更新更加穩健起來。
總結起來就是BN解決了反向傳播過程中的梯度問題(梯度消失和爆炸),同時使得不同scale的
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 整體更新步調更一緻。
連結:https://www.zhihu.com/question/38102762/answer/164790133
為什麼要用BN?BN work的原因是什麼?
說到底,BN的提出還是為了克服深度神經網絡難以訓練的弊病。其實BN背後的insight非常簡單,隻是在文章中被Google複雜化了。
首先來說說“Internal Covariate Shift”。文章的title除了BN這樣一個關鍵詞,還有一個便是“ICS”。大家都知道在統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的”。如果不一緻,那麼就出現了新的機器學習問題,如,transfer learning/domain adaptation等。而covariate shift就是分布不一緻假設之下的一個分支問題,它是指源空間和目标空間的條件機率是一緻的,但是其邊緣機率不同,即:對所有
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) ,
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) ,但是
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) . 大家細想便會發現,的确,對于神經網絡的各層輸出,由于它們經過了層内操作作用,其分布顯然與各層對應的輸入信号分布不同,而且差異會随着網絡深度增大而增大,可是它們所能“訓示”的樣本标記(label)仍然是不變的,這便符合了covariate shift的定義。由于是對層間信号的分析,也即是“internal”的來由。
那BN到底是什麼原理呢?說到底還是為了防止“梯度彌散”。關于梯度彌散,大家都知道一個簡單的栗子:
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization) 。在BN中,是通過将activation規範為均值和方差一緻的手段使得原本會減小的activation的scale變大。可以說是一種更有效的local response normalization方法(見4.2.1節)。
連結:https://www.zhihu.com/question/38102762/answer/85238569
本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/8268459.html,如需轉載請自行聯系原作者