Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題，統計機器學習中的一個經典假設是“源空間（source domain）和目标空間（target domain）的資料分布（distribution）是一緻的LRN（Local Response Normalization）

AlexNet将LeNet的思想發揚光大，把CNN的基本原理應用到了很深很寬的網絡中。AlexNet主要使用到的新技術點如下。

（1）成功使用ReLU作為CNN的激活函數，并驗證其效果在較深的網絡超過了Sigmoid，成功解決了Sigmoid在網絡較深時的梯度彌散問題。雖然ReLU激活函數在很久之前就被提出了，但是直到AlexNet的出現才将其發揚光大。

（2）訓練時使用Dropout随機忽略一部分神經元，以避免模型過拟合。Dropout雖有單獨的論文論述，但是AlexNet将其實用化，通過實踐證明了它的效果。在AlexNet中主要是最後幾個全連接配接層使用了Dropout。

（3）在CNN中使用重疊的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出讓步長比池化核的尺寸小，這樣池化層的輸出之間會有重疊和覆寫，提升了特征的豐富性。

（4）提出了LRN層，對局部神經元的活動建立競争機制，使得其中響應比較大的值變得相對更大，并抑制其他回報較小的神經元，增強了模型的泛化能力。

ImageNet中的LRN層是按下述公式計算的：

但似乎，在後來的設計中，這一層已經被其它種的Regularization技術，如drop out, batch normalization取代了。知道了這些，似乎也可以不那麼糾結這個LRN了。

轉自：http://blog.csdn.net/searobbers_duck/article/details/51645941

感覺LRN也是解決的梯度消失和爆炸問題。

BN本質上解決的是反向傳播過程中的梯度問題。

詳細點說，反向傳播時經過該層的梯度是要乘以該層的參數的，即前向有：

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題，統計機器學習中的一個經典假設是“源空間（source domain）和目标空間（target domain）的資料分布（distribution）是一緻的LRN（Local Response Normalization）

那麼反向傳播時便有：

那麼考慮從l層傳到k層的情況，有：

上面這個

便是問題所在。因為網絡層很深，如果

大多小于1，那麼傳到這裡的時候梯度會變得很小比如

；而如果

又大多大于1，那麼傳到這裡的時候又會有梯度爆炸問題比如

。

BN所做的就是解決這個梯度傳播的問題，因為BN作用抹去了w的scale影響。

具體有：

(

) =

)

那麼反向求導時便有了：

可以看到此時反向傳播乘以的數不再和

的尺度相關，也就是說盡管我們在更新過程中改變了

的值，但是反向傳播的梯度卻不受影響。更進一步：

即尺度較大的

将獲得一個較小的梯度，在同等的學習速率下其獲得的更新更少，這樣使得整體

的更新更加穩健起來。

總結起來就是BN解決了反向傳播過程中的梯度問題（梯度消失和爆炸），同時使得不同scale的

整體更新步調更一緻。

連結：https://www.zhihu.com/question/38102762/answer/164790133

為什麼要用BN？BN work的原因是什麼？

說到底，BN的提出還是為了克服深度神經網絡難以訓練的弊病。其實BN背後的insight非常簡單，隻是在文章中被Google複雜化了。

首先來說說“Internal Covariate Shift”。文章的title除了BN這樣一個關鍵詞，還有一個便是“ICS”。大家都知道在統計機器學習中的一個經典假設是“源空間（source domain）和目标空間（target domain）的資料分布（distribution）是一緻的”。如果不一緻，那麼就出現了新的機器學習問題，如，transfer learning/domain adaptation等。而covariate shift就是分布不一緻假設之下的一個分支問題，它是指源空間和目标空間的條件機率是一緻的，但是其邊緣機率不同，即：對所有

，但是

. 大家細想便會發現，的确，對于神經網絡的各層輸出，由于它們經過了層内操作作用，其分布顯然與各層對應的輸入信号分布不同，而且差異會随着網絡深度增大而增大，可是它們所能“訓示”的樣本标記（label）仍然是不變的，這便符合了covariate shift的定義。由于是對層間信号的分析，也即是“internal”的來由。

那BN到底是什麼原理呢？說到底還是為了防止“梯度彌散”。關于梯度彌散，大家都知道一個簡單的栗子：

。在BN中，是通過将activation規範為均值和方差一緻的手段使得原本會減小的activation的scale變大。可以說是一種更有效的local response normalization方法（見4.2.1節）。

連結：https://www.zhihu.com/question/38102762/answer/85238569

本文轉自張昺華-sky部落格園部落格，原文連結：http://www.cnblogs.com/bonelee/p/8268459.html，如需轉載請自行聯系原作者

Local Response Normalization作用——感覺LRN也是解決的梯度消失和爆炸問題，統計機器學習中的一個經典假設是“源空間（source domain）和目标空間（target domain）的資料分布（distribution）是一緻的LRN（Local Response Normalization）

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡