天天看點

特征工程-資料歸一化和标準化

定義

歸一化:

Xi−XminXmax−Xmin X i − X m i n X m a x − X m i n

标準化: Xi−μσ X i − μ σ

其中 μ μ 和 σ σ 代表樣本的均值和标準差, Xmax X m a x 為最大值, Xmin X m i n 為最小值。

本質

歸一化和标準化的本質是線性變換。

線性變換有很多良好的性質,這些性質決定了為什麼對資料進行改變後竟然不會造成“失效”,反而還能提高資料的表現。

兩者差別

歸一化的縮放是“拍扁”統一到區間(僅由極值決定),而标準化的縮放是更加“彈性”和“動态”的,和整體樣本的分布有很大的關系。

  • 歸一化:縮放僅僅跟最大、最小值的差别有關。
  • 标準化:縮放和每個點都有關系,通過方差(variance)展現出來。與歸一化對比,标準化中所有資料點都有貢獻(通過均值和标準差造成影響)。
  • 歸一化: 輸出範圍在0-1之間
  • 标準化:輸出範圍是負無窮到正無窮

應用場景

對輸出結果範圍有要求,用歸一化

資料較為穩定,不存在極端的最大最小值,用歸一化

(如果樣本中具有不同量綱的名額,最好進行歸一化)

資料存在異常值和較多噪音,用标準化,可以間接通過中心化避免異常值和極端值的影響

繼續閱讀