天天看點

機器學習入門筆記(三)

特征縮放

如下圖的資料情況

機器學習入門筆記(三)

圖中的房子價格與房間數量大小相差較大,是以在回歸預測時所得的模型可能不夠準确。

是以引入特征縮放,常用的特征縮放方法由兩種:

(一)資料歸一化:把資料的取值範圍處理為0~1或者 -1~1

任意資料轉化為0~1之間:newValue=(oldValue-min)/(max-min)

任意資料轉化為-1~1之間:newValue=[(oldValue-min)/(max-min)-0.5]*2

(二)均值标準化: newValue=(oldValue-u)/s

u為平均值,s為方差。

交叉驗證法

當資料集數量太少時,用該方法做模型訓練,以得到最小的誤差。如下圖所示:

機器學習入門筆記(三)

例如将資料分為10份,每次将其中9分用于訓練模型,剩下1份用于測試,如此會有10種不同的結果的誤差,最後求誤差平均值。

過拟合

過拟合時機器學習中常見且不可避免的情況,具體表現為訓練所得的模型在訓練集表現好而在測試集表現糟糕,如下列幾種情況:

機器學習入門筆記(三)

防止過拟合的方法一般分為以下幾種:

(1)減少特征數

(2)增加資料量

(3)正則化

注:過拟合在模型上表現為過于複雜

正則化

L1正則化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j] J(θ)=2m1​[∑i=1m​(hθ​(xi​)−yi​)2+λ∑j=1n​θj​]

L2正則化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j^ 2] J(θ)=2m1​[∑i=1m​(hθ​(xi​)−yi​)2+λ∑j=1n​θj2​]

嶺回歸

嶺回歸:在标準方程法中 X T X X^TX XTX不可逆時(資料特征數n>樣本個數m),引入嶺回歸,将 X T X X^TX XTX後加入 λ \lambda λI ,其中I為機關陣,最終用标準方程法仍可求得參數w= ( X T X + λ I ) − 1 X T y (X^TX+\lambda I)^{-1}X^Ty (XTX+λI)−1XTy

嶺回歸使用L2正則化: J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + β ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\beta\sum_{j=1}^{n}\theta_j^2 J(θ)=2m1​∑i=1m​(hθ​(xi​)−yi​)2+β∑j=1n​θj2​

其中 β \beta β稱為正則系數

用矩陣可寫成: J ( θ ) = 1 2 ( X T θ − Y ) ( X θ − Y ) + β θ T θ J(\theta)=\frac12(X^T\theta-Y)(X\theta-Y)+\beta\theta^T\theta J(θ)=21​(XTθ−Y)(Xθ−Y)+βθTθ

對 θ \theta θ求偏導可知 θ = ( X T X + β I ) − 1 X T y \theta=(X^TX+\beta I)^{-1}X^Ty θ=(XTX+βI)−1XTy

β \beta β的選擇原則為:

(1)參數變化區域穩定

(2)殘缺平方值較小

繼續閱讀