特征縮放
如下圖的資料情況

圖中的房子價格與房間數量大小相差較大,是以在回歸預測時所得的模型可能不夠準确。
是以引入特征縮放,常用的特征縮放方法由兩種:
(一)資料歸一化:把資料的取值範圍處理為0~1或者 -1~1
任意資料轉化為0~1之間:newValue=(oldValue-min)/(max-min)
任意資料轉化為-1~1之間:newValue=[(oldValue-min)/(max-min)-0.5]*2
(二)均值标準化: newValue=(oldValue-u)/s
u為平均值,s為方差。
交叉驗證法
當資料集數量太少時,用該方法做模型訓練,以得到最小的誤差。如下圖所示:
例如将資料分為10份,每次将其中9分用于訓練模型,剩下1份用于測試,如此會有10種不同的結果的誤差,最後求誤差平均值。
過拟合
過拟合時機器學習中常見且不可避免的情況,具體表現為訓練所得的模型在訓練集表現好而在測試集表現糟糕,如下列幾種情況:
防止過拟合的方法一般分為以下幾種:
(1)減少特征數
(2)增加資料量
(3)正則化
注:過拟合在模型上表現為過于複雜
正則化
L1正則化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j] J(θ)=2m1[∑i=1m(hθ(xi)−yi)2+λ∑j=1nθj]
L2正則化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j^ 2] J(θ)=2m1[∑i=1m(hθ(xi)−yi)2+λ∑j=1nθj2]
嶺回歸
嶺回歸:在标準方程法中 X T X X^TX XTX不可逆時(資料特征數n>樣本個數m),引入嶺回歸,将 X T X X^TX XTX後加入 λ \lambda λI ,其中I為機關陣,最終用标準方程法仍可求得參數w= ( X T X + λ I ) − 1 X T y (X^TX+\lambda I)^{-1}X^Ty (XTX+λI)−1XTy
嶺回歸使用L2正則化: J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + β ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\beta\sum_{j=1}^{n}\theta_j^2 J(θ)=2m1∑i=1m(hθ(xi)−yi)2+β∑j=1nθj2
其中 β \beta β稱為正則系數
用矩陣可寫成: J ( θ ) = 1 2 ( X T θ − Y ) ( X θ − Y ) + β θ T θ J(\theta)=\frac12(X^T\theta-Y)(X\theta-Y)+\beta\theta^T\theta J(θ)=21(XTθ−Y)(Xθ−Y)+βθTθ
對 θ \theta θ求偏導可知 θ = ( X T X + β I ) − 1 X T y \theta=(X^TX+\beta I)^{-1}X^Ty θ=(XTX+βI)−1XTy
β \beta β的選擇原則為:
(1)參數變化區域穩定
(2)殘缺平方值較小