Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Background

Covariance shift

——when the input distribution to a learning system changes, it is said to experience covariance shift.

當這種現象發生在多層神經網絡之間時，即前面層參數的改變，使得後面層的輸入分布發生改變時，就叫Internal covariance shift。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

前面層的參數變化會影響目前層的輸入分布，缺點有二：

1.大大減慢目前層的參數學習速度（目前層也是一個learning system，一旦其輸入的分布改變，就要調整參數來适應這種分布）；

2.若使用sigmoid激活函數，目前層的輸入可能會處于sigmoid函數的非線性飽和區域，進而導緻梯度消失現象。在BN出現以前，通常采用ReLU（x）=max（0，x）激活函數或使用較小的learning rate來解決這個問題。

是以我們想到，如果前面層的輸出activation（即目前層的輸入input）的分布是一定的呢？那樣就會減少下一層輸入陷入sigmoid飽和非線性區域的可能，梯度不再容易消失，進而加快訓練速度。

Whitening

對某一層的輸出activations進行白化操作（零均值、機關方差、去相關），可以使得這些activations的分布保持恒定，進而減小internal covariance shift對下一層的影響。

其缺點在于：

1.expensive computation

2.not everywhere differentiable

為了解決這個問題，作者在Batch_normalization中提出了兩個簡化做法。

Normalization via Mini-batch statistics

BN包括兩個重要的操作：

1.normalization：零均值化、機關方差

2.scale and shift：引入兩個參數，進而使得BN操作可以代表一個恒等變換（相當于BN transform的輸入和輸出是一樣的，也就是不改變輸入分布）

表示如下：

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

對某一layer，其輸入x的次元（即前一層的activations個數）為d，則需要對每一維（即每一個activation）分别進行normalization:

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

然而，僅僅對每個輸入進行normalization會改變輸入的分布，例如，若使用的是sigmoid激活函數，則對輸入的normalization會将其限制在sigmoid函數的線性區域，為了解決這個問題，我們在normalization操作後面加上一個如下所示的線性變換（linear transform），使得整個Batch normalization具有表達恒等變換的能力。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

對每一個前一層的輸出activation，都要學習自己的gama、beta。

當每個activation的gama和beta都按如下當時取值時，輸入的activations經過BN操作後分布不變，此時，BN就相當于一個恒等變換了。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

整個BN算法架構如下：

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

反向傳播

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

推導過程如下：

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Testing

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Batch-Normalized Convolutional Networks

正如卷積神經網絡裡，同一個feature map裡面的多個units是由同一個kernel在input image的不同區域滑動得到的，當在卷積神經網絡裡加入BN操作時，同一個feature map的activations也用同樣的normalization方式，也就是說，對一個具有n個feature maps的activation layer，隻需要學習n個gama-beta參數對。

加入BN後

加入BN操作的神經網絡，可以設定更大的learning rate、去掉dropout層、減少L2正則化。

實驗

某一層的輸出activations的分布随着訓練時間的增長而變化的曲線：

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

可以看出，加入BN後，分布更加穩定，減弱了internal covariance shift。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Background

Whitening

Normalization via Mini-batch statistics

反向傳播

Testing

Batch-Normalized Convolutional Networks

加入BN後

實驗

繼續閱讀

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡