天天看點

機器學習中的歸一化

歸一化化定義:我是這樣認為的,歸一化化就是要把你需要處理的資料經過處理後(通過某種算法)限制在你需要的一定範圍内。首先歸一化是為了後面資料處理的友善,其次是保正程式運作時收斂加快。

資料歸一化的目的是為了把不同來源的資料統一到一個參考系下,這樣比較起來才有意義。

資料歸一化,很重要。比如在用svm分類時,資料尺度不統一對分類準确率影響很大。歸一化一般将資料規整到一個小範圍之間,如[0,1]或[-1,1],具體的方法一範求和或二範求模歸一化等。

資料标準化(歸一化)處理是資料挖掘的一項基礎工作,不同評價名額往往具有不同的量綱和量綱機關,這樣的情況會影響到資料分析的結果,為了消除名額之間的量綱影響,需要進行資料标準化處理,以解決資料名額之間的可比性。原始資料經過資料标準化處理後,各名額處于同一數量級,适合進行綜合對比評價。以下是兩種常用的歸一化方法:

也稱為離差标準化,是對原始資料的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

機器學習中的歸一化

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導緻max和min的變化,需要重新定義。

這種方法給予原始資料的均值(mean)和标準差(standard deviation)進行資料的标準化。經過處理的資料符合标準正态分布,即均值為0,标準差為1,轉化函數為:

機器學習中的歸一化
機器學習中的歸一化

繼續閱讀