Group Normalization 論文了解

Batch Normalization是一個裡程碑式的工作，使得大量cnn可以正常訓練，Kaiming He等人提出Group Normalization又做了進一步提升

paper：: Group Normalization

link：GN paper

code：引入GN實作訓練的Mask-RCNN

摘要

文中提出一種新的CNN訓練優化技術：
- BN現存問題：随着batch size的減小，由不準确的批量統計估計造成的BN的錯誤率上升；
- BN受限領域：由于計算mem的限制在detection、segmentation、video等領域模型的訓練需要小batch size；
- 提出GN：GN以channel為group計算均值和方差，獨立于batch size，在batch size小的時候優于BN，batch size大的時候和BN效果相似；

Group Normalization 論文了解

簡介

由于BN對網絡訓練時候的batch size有要求是以引申出的問題是：在訓練中引入BN時由于mem的限制需要在網絡設計和batch size之間進行妥協；
GN是作為BN的簡單代替方法提出的，不僅在視覺任務上适用，同時也可以在序列模型和生成模型上适用；

Group Normalization

GN算法建構思路：
- 正常的特征歸一化計算公式：
  - x ^ i = 1 σ i ( x i − μ i ) \hat { x } _ { i } = \frac { 1 } { \sigma _ { i } } \left( x _ { i } - \mu _ { i } \right) x^i=σi1(xi−μi)
  - 其中 μ i = 1 m ∑ k ∈ S i x k , σ i = 1 m ∑ k ∈ S i ( x k − μ i ) 2 + ϵ \mu _ { i } = \frac { 1 } { m } \sum _ { k \in \mathcal { S } _ { i } } x _ { k } , \quad \sigma _ { i } = \sqrt { \frac { 1 } { m } \sum _ { k \in \mathcal { S } _ { i } } \left( x _ { k } - \mu _ { i } \right) ^ { 2 } + \epsilon } μi=m1∑k∈Sixk,σi=m1∑k∈Si(xk−μi)2+ϵ
    
    ， ϵ \epsilon ϵ是一個小常量
  - 在 ( N , C , H , W ) ( N , C , H , W ) (N,C,H,W)tensor中 i = ( i N , i C , i H , i W ) i = \left( i _ { N } , i _ { C } , i _ { H } , i _ { W } \right) i=(iN,iC,iH,iW)
- BN計算過程： S i = { k ∣ k C = i C } \mathcal { S } _ { i } = \{ k | k _ { C } = i _ { C } \} Si={k∣kC=iC}在 ( N , H , W ) ( N , H , W ) (N,H,W)次元做norm計算；
- LN計算過程： S i = { k ∣ k N = i N } \mathcal { S } _ { i } = \{ k | k _ { N } = i _ { N } \} Si={k∣kN=iN}在 ( C , H , W ) ( C , H , W ) (C,H,W)次元做norm計算;
- BN計算過程： S i = { k ∣ k N = i N , k ∣ k C = i C } \mathcal { S } _ { i } = \{ k | k_{ N } = i_{ N }, \quad k | k _ { C } = i _ { C } \} Si={k∣kN=iN,k∣kC=iC}在 ( H , W ) ( H , W ) (H,W)次元做norm計算;
- y i = γ x ^ i + β y _ { i } = \gamma \hat { x } _ { i } + \beta yi=γx^i+β 通過線性變換來彌補表達能力可能的損失
- GN計算過程： S i = { k ∣ k N = i N , ⌊ k C C / G ⌋ = ⌊ i C C / G ⌋ } \mathcal { S } _ { i } = \{ k | k _ { N } = i _ { N } , \left\lfloor \frac { k _ { C } } { C / G } \right\rfloor = \left\lfloor \frac { i _ { C } } { C / G } \right\rfloor \} Si={k∣kN=iN,⌊C/GkC⌋=⌊C/GiC⌋}在 ( C / G , H , W ) ( C/G , H , W ) (C/G,H,W)次元做norm計算
GN在tensorflow中的實作：

Group Normalization 論文了解

實驗結果show

具體實驗結果展示可見原文，在此不就不做額外展示啦~

總結

本文提出不利用batch次元的norm方式GN用來優化模型的訓練，但是由于BN影響力太多目前許多先進的系統都為其設計了超參數，但是這個對于基于GN的模型來說可能不是最優的，後續可能會重新設計系統或者探索新的超參數；
文中展示了GN的LN以及IN的相關性，說明GN在序列模型和生成模型領域也适用，後續應該會對GN在這些領域的應用加強研究，同時作者提到還出探索GN在RL任務中學習表征的性能；

Group Normalization 論文了解

摘要

簡介

相關知識

Group Normalization

實驗結果show

總結

繼續閱讀

How to optimize project repository size in GIT-based version management system

[python]用profile協助程式性能優化

scipy.optimize 求解非線性Rosenbrock最優化問題 python

進化政策入門：最優化問題的另一種視角

SQL調優整理

“Python性能優化”講稿分享

公開“英特爾多核平台程式設計優化大賽”優化報告及源代碼

神經網絡BN(Batch Normalization)層總結(上)

pytorch之BatchNorm

VUE源碼學習第八篇--編譯(optimize)一、總述二、markStatic三、markStaticRoots五、總結

海洋生态系統變化對海洋生物會産生什麼影響，實時檢測法在其中又起到了什麼關鍵？由于海底光線分布不均、水浪影響較大、海底環

Pytorch error記錄

深度學習煉丹-資料标準化

Profiling (移動裝置性能分析)官方文檔筆記Memory記憶體

搜尋算法小知識：資料歸一化vs标準化：1.标準化（Standardization）：标準化是一種基于統計分布假設的處理方

CBN丨Major Chinese cities vow to optimize real estate policies to boost recovery