天天看點

搜尋算法小知識:資料歸一化vs标準化:1.标準化(Standardization):标準化是一種基于統計分布假設的處理方

作者:愛閱讀

搜尋算法小知識:

資料歸一化 vs 标準化:

1. 标準化(Standardization):标準化是一種基于統計分布假設的處理方式,目的是使資料滿足目标分布模型,使不同度量之間的特征具有可比性。

2. 通常标準化是通過特征的平均值和标準差,将特征縮放成一個标準的正态分布,縮放後均值為0,方差為1。标準化是為了友善資料的下一步處理,而進行的資料縮放等變換,和歸一化有本質不同;Z-score标準化:主要目的就是将不同量級的資料統一轉化為同一個量級、有異常值的情況,統一用計算出的Z-Score值衡量,以保證資料之間的可比性

3. 歸一化(Normalization):

歸一化是将資料按比例縮放,使其值落入特定的範圍,通常是[0, 1]或[-1, 1]之間,本身不改變資料分布。常用的歸一化方法有最小-最大歸一化(Min-Max normalization)和Z-Score歸一化。最小-最大歸一化(異常值非常敏感) -- 線性歸一化:目标區間最小-最大歸一化 ---- 線性歸一化:最大值歸一化 ---- 線性歸一化:非線性歸一化:包括 log、指數,正切,softmax,Sigmoid等,

4. 歸一化 vs 标準化:

标準化做的事情就是使原來的分布改變為高斯分布,改變資料原始分布;歸一化是将資料壓縮到一定範圍,不改變資料分布;歸一化縮放僅僅跟最大、最小值的差别有關,标準化處理時縮放和每個點都有關系,通過方差來展現出來;如果對輸出結果範圍有要求、資料較為穩定、不存在極端的最大最小值,可用用歸一化;資料存在異常值和較多噪音,用标準化間接通過中心化避免異常值和極端值的影響;

搜尋算法小知識:資料歸一化vs标準化:1.标準化(Standardization):标準化是一種基于統計分布假設的處理方
搜尋算法小知識:資料歸一化vs标準化:1.标準化(Standardization):标準化是一種基于統計分布假設的處理方
搜尋算法小知識:資料歸一化vs标準化:1.标準化(Standardization):标準化是一種基于統計分布假設的處理方
搜尋算法小知識:資料歸一化vs标準化:1.标準化(Standardization):标準化是一種基于統計分布假設的處理方

繼續閱讀