淺談資料歸一化

2021-11-14 05:25:07

　　歸一化是一種簡化計算的方式，即将有量綱的表達式，經過變換，化為無量綱的表達式，成為純量。歸一化是為了加快訓練網絡的收斂性，可以不進行歸一化處理

歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的機率分布，歸一化在-1--+1之間是統計的坐标分布。

　　在這裡主要讨論兩種歸一化方法：

　　線性函數将原始資料線性化的方法轉換到[0 1]的範圍，歸一化公式如下：

　　該方法實作對原始資料的等比例縮放，其中Xnorm為歸一化後的資料，X為原始資料，Xmax、Xmin分别為原始資料集的最大值和最小值。

　　0均值歸一化方法将原始資料集歸一化為均值為0、方差1的資料集，歸一化公式如下：

　　其中，μ、σ分别為原始資料集的均值和方法。該種歸一化方式要求原始資料的分布可以近似為高斯分布，否則歸一化的效果會變得很糟糕。

　　3、反餘切函數轉換，表達式如下：

y=atan(x)*2/PI

　　以上為兩種比較普通但是常用的歸一化技術，那這兩種歸一化的應用場景是怎麼樣的呢？什麼時候第一種方法比較好、什麼時候第二種方法比較好呢？下面做一個簡要的分析概括：

　　1、在分類、聚類算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候，第二種方法(Z-score standardization)表現更好。

　　2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用第一種方法或其他歸一化方法。比如圖像進行中，将RGB圖像轉換為灰階圖像後将其值限定在[0 255]的範圍。

　　為什麼在距離度量計算相似性、PCA中使用第二種方法(Z-score standardization)會更好呢？我們進行了以下的推倒分析：

歸一化方法對方差、協方差的影響：假設資料為2個次元(X、Y)，首先看0均值對方法、協方差的影響：

　　可以看到，使用第一種方法(線性變換後)，其協方差産生了倍數值的縮放，是以這種方式無法消除量綱對方差、協方差的影響，對PCA分析影響巨大；同時，由于量綱的存在，使用不同的量綱、距離的計算結果會不同。

　　而在第二種歸一化方式中，新的資料由于對方差進行了歸一化，這時候每個次元的量綱其實已經等價了，每個次元都服從均值為0、方差1的正太分布，在計算距離的時候，每個次元都是去量綱化的，避免了不同量綱的選取對距離計算産生的巨大影響。

　　總結來說，在算法、後續計算中涉及距離度量(聚類分析)或者協方差分析(PCA、LDA等)的，同時資料分布可以近似為狀态分布，應當使用0均值的歸一化方法。其他應用中更具需要選用合适的歸一化方法。

繼續閱讀