天天看點

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 AlexNet将LeNet的思想發揚光大,把CNN的基本原理應用到了很深很寬的網絡中。AlexNet主要使用到的新技術點如下。

(1)成功使用ReLU作為CNN的激活函數,并驗證其效果在較深的網絡超過了Sigmoid,成功解決了Sigmoid在網絡較深時的梯度彌散問題。雖然ReLU激活函數在很久之前就被提出了,但是直到AlexNet的出現才将其發揚光大。

(2)訓練時使用Dropout随機忽略一部分神經元,以避免模型過拟合。Dropout雖有單獨的論文論述,但是AlexNet将其實用化,通過實踐證明了它的效果。在AlexNet中主要是最後幾個全連接配接層使用了Dropout。

(3)在CNN中使用重疊的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果。并且AlexNet中提出讓步長比池化核的尺寸小,這樣池化層的輸出之間會有重疊和覆寫,提升了特征的豐富性。

(4)提出了LRN層,對局部神經元的活動建立競争機制,使得其中響應比較大的值變得相對更大,并抑制其他回報較小的神經元,增強了模型的泛化能力。

ImageNet中的LRN層是按下述公式計算的:

但似乎,在後來的設計中,這一層已經被其它種的Regularization技術,如drop out, batch normalization取代了。知道了這些,似乎也可以不那麼糾結這個LRN了。

轉自:http://blog.csdn.net/searobbers_duck/article/details/51645941

感覺LRN也是解決的梯度消失和爆炸問題。

BN本質上解決的是反向傳播過程中的梯度問題。

詳細點說,反向傳播時經過該層的梯度是要乘以該層的參數的,即前向有:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

那麼反向傳播時便有:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

那麼考慮從l層傳到k層的情況,有:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

上面這個 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 便是問題所在。因為網絡層很深,如果 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 大多小于1,那麼傳到這裡的時候梯度會變得很小比如 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 ;而如果 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 又大多大于1,那麼傳到這裡的時候又會有梯度爆炸問題 比如

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 。

BN所做的就是解決這個梯度傳播的問題,因為BN作用抹去了w的scale影響。

具體有:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

(

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

) = 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

)

那麼反向求導時便有了:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)
Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

可以看到此時反向傳播乘以的數不再和 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 的尺度相關,也就是說盡管我們在更新過程中改變了 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 的值,但是反向傳播的梯度卻不受影響。更進一步:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

即尺度較大的 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 将獲得一個較小的梯度,在同等的學習速率下其獲得的更新更少,這樣使得整體 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 的更新更加穩健起來。

總結起來就是BN解決了反向傳播過程中的梯度問題(梯度消失和爆炸),同時使得不同scale的 

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

 整體更新步調更一緻。

連結:https://www.zhihu.com/question/38102762/answer/164790133

為什麼要用BN?BN work的原因是什麼?

說到底,BN的提出還是為了克服深度神經網絡難以訓練的弊病。其實BN背後的insight非常簡單,隻是在文章中被Google複雜化了。

首先來說說“Internal Covariate Shift”。文章的title除了BN這樣一個關鍵詞,還有一個便是“ICS”。大家都知道在統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的”。如果不一緻,那麼就出現了新的機器學習問題,如,transfer learning/domain adaptation等。而covariate shift就是分布不一緻假設之下的一個分支問題,它是指源空間和目标空間的條件機率是一緻的,但是其邊緣機率不同,即:對所有

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

,

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

,但是

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

. 大家細想便會發現,的确,對于神經網絡的各層輸出,由于它們經過了層内操作作用,其分布顯然與各層對應的輸入信号分布不同,而且差異會随着網絡深度增大而增大,可是它們所能“訓示”的樣本标記(label)仍然是不變的,這便符合了covariate shift的定義。由于是對層間信号的分析,也即是“internal”的來由。

那BN到底是什麼原理呢?說到底還是為了防止“梯度彌散”。關于梯度彌散,大家都知道一個簡單的栗子:

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題,統計機器學習中的一個經典假設是“源空間(source domain)和目标空間(target domain)的資料分布(distribution)是一緻的LRN(Local Response Normalization)

。在BN中,是通過将activation規範為均值和方差一緻的手段使得原本會減小的activation的scale變大。可以說是一種更有效的local response normalization方法(見4.2.1節)。

連結:https://www.zhihu.com/question/38102762/answer/85238569

本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/8268459.html,如需轉載請自行聯系原作者

繼續閱讀