梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

2023-04-18 03:38:21

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

當多個特征的範圍差距過大時，代價函數的輪廓圖會非常的偏斜，如下圖左所示，這會導緻梯度下降函數收斂的非常慢。是以需要特征縮放(feature scaling)來解決這個問題，特征縮放的目的是把特征的範圍縮放到接近的範圍。當把特征的範圍縮放到接近的範圍，就會使偏斜的不那麼嚴重。通過代價函數執行梯度下降算法時速度回加快，更快的收斂。如下圖右所示。

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

特征縮放的範圍：一般把特征的範圍縮放到-1到1，和這接近就行，沒必要同一範圍。梯度下降就能很好的工作。如下圖所示，x1 的範圍為0到3，x2的範圍為-2到0.5都是可以的。但不能相差的很大，-100到100則是不可以的。

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

特征縮放的方法：直接先看圖再解釋，主要是均值歸一化

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

一般的均值歸一化公式為:

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

，其中

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

為均值，s為特征的範圍，即max-min。也可以用标準差。

其實歸一化主要有兩種方法：

第一種是min-max标準化（Min-Max Normalization）

它把原始資料映射到[0-1]之間，公式為：

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

第二種是0均值标準化（z-score标準化）

公式為：

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

其中，

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

為均值，

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

标準差。标準差是方差的開方，把标注差公式也貼上來吧：

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

這兩種歸一化方法的适用場景為：

在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用第一種方法或其他歸一化方法。比如圖像進行中，将RGB圖像轉換為灰階圖像後将其值限定在[0 255]的範圍
在分類、聚類算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候，第二種方法(Z-score standardization)表現更好。

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

梯度下降實用技巧I之特征縮放 Gradient Descent in practice I - feature scaling

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告