機器學習入門筆記（三）

2023-07-16 18:00:48

特征縮放

如下圖的資料情況

機器學習入門筆記（三）

圖中的房子價格與房間數量大小相差較大，是以在回歸預測時所得的模型可能不夠準确。

是以引入特征縮放，常用的特征縮放方法由兩種：

(一)資料歸一化：把資料的取值範圍處理為0~1或者 -1~1

任意資料轉化為0~1之間：newValue=(oldValue-min)/(max-min)

任意資料轉化為-1~1之間：newValue=[(oldValue-min)/(max-min)-0.5]*2

(二)均值标準化： newValue=(oldValue-u)/s

u為平均值，s為方差。

交叉驗證法

當資料集數量太少時，用該方法做模型訓練，以得到最小的誤差。如下圖所示：

機器學習入門筆記（三）

例如将資料分為10份，每次将其中9分用于訓練模型，剩下1份用于測試，如此會有10種不同的結果的誤差，最後求誤差平均值。

過拟合

過拟合時機器學習中常見且不可避免的情況，具體表現為訓練所得的模型在訓練集表現好而在測試集表現糟糕，如下列幾種情況：

機器學習入門筆記（三）

防止過拟合的方法一般分為以下幾種：

(1)減少特征數

(2)增加資料量

(3)正則化

注：過拟合在模型上表現為過于複雜

正則化

L1正則化： J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j] J(θ)=2m1[∑i=1m(hθ(xi)−yi)2+λ∑j=1nθj]

L2正則化： J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j^ 2] J(θ)=2m1[∑i=1m(hθ(xi)−yi)2+λ∑j=1nθj2]

嶺回歸

嶺回歸：在标準方程法中 X T X X^TX XTX不可逆時（資料特征數n>樣本個數m），引入嶺回歸，将 X T X X^TX XTX後加入 λ \lambda λI ,其中I為機關陣，最終用标準方程法仍可求得參數w= ( X T X + λ I ) − 1 X T y (X^TX+\lambda I)^{-1}X^Ty (XTX+λI)−1XTy

嶺回歸使用L2正則化： J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + β ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\beta\sum_{j=1}^{n}\theta_j^2 J(θ)=2m1∑i=1m(hθ(xi)−yi)2+β∑j=1nθj2

其中 β \beta β稱為正則系數

用矩陣可寫成： J ( θ ) = 1 2 ( X T θ − Y ) ( X θ − Y ) + β θ T θ J(\theta)=\frac12(X^T\theta-Y)(X\theta-Y)+\beta\theta^T\theta J(θ)=21(XTθ−Y)(Xθ−Y)+βθTθ

對 θ \theta θ求偏導可知 θ = ( X T X + β I ) − 1 X T y \theta=(X^TX+\beta I)^{-1}X^Ty θ=(XTX+βI)−1XTy

β \beta β的選擇原則為：

(1)參數變化區域穩定

(2)殘缺平方值較小

機器學習入門筆記（三）

特征縮放

交叉驗證法

過拟合

正則化

嶺回歸

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告