Regularization:The problem of overfitting
- definition of overfitting
- 解決過度拟合
- 參考
definition of overfitting
-
定義:
給定一個假設空間H,一個假設h屬于H,如果存在其他的假設h’屬于H,使得在訓練樣例上h的錯誤率比h’小,但在整個執行個體分布上h’比h的錯誤率小,那麼就說假設h過度拟合訓練資料。
-
判斷方法
一個假設在訓練資料上能夠獲得比其他假設更好的拟合, 但是在訓練資料外的資料集上卻不能很好地拟合資料,此時認為這個假設出現了過拟合的現象。出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。
- 舉例
- 例1 如上圖第三個圖所示,雖然拟合的曲線經過了沒一個樣本點,但是顯然拟合結果沒有第二個好,我們無法準确預知其後面的走向。
- 例二
解決過度拟合
通常我們有兩種解決辦法
- 減少特征值
- 人為選擇保留哪些特征
- 模型選擇算法(後述課程中會講到)
- 正則化
- 保留所有參數,但是減小參數 θ j \theta_j θj的值,每個特征都貢獻了一點。
參考
https://baike.baidu.com/item/%E8%BF%87%E6%8B%9F%E5%90%88
https://www.coursera.org/learn/machine-learning/supplement/CUz2O/lecture-slides