overfitting

2023-06-11 08:03:51

機器學習的效果如何得看他的泛化能力咋樣，學的不咋的，又可以分為：underfitting，即在看過的資料集上就沒有做好，這時候可以增加hypothesis 模型複雜度，通過feature transform增加dvc。overfitting，即在看多的訓練集上表現的很好，計算的hypothesis完全符合看過的資料點，但是Eout不好。與underfitting不同，overfitting的成因很多，是以可使用改進的方法也很多！

overfitting

一、overfitting 成因

先來看一個奇怪的現象：即便目标函數是高階的，使用一個高階的hypothesis學習效果卻不如低階hypothesis，這裡的原因是資料點太少了，無法刻畫出真實的hypothesis變化。資料集不夠大，低階的hypothesis反而更好！

overfitting

假設資料通過目标函數和噪聲産生，考慮噪聲、目标函數複雜性、資料集大小對泛化能力影響：

overfitting

選取二階和十階的hypothesis，先判斷資料集大小和噪聲強弱對泛化能力的影響，已知目标函數為20階，衡量标準為10階多項式和2階多項式誤差內插補點：

overfitting

判斷目标函數的複雜度（樣本資料跳躍性更大仿佛有噪聲幹擾）和資料集大小對泛化能力影響，這裡的衡量标準依舊是标準為10階多項式和2階多項式誤差內插補點：在最下面，此時目标函數的複雜性不高，但是使用10階多項式易産生過拟合，與上面的分析類似，當資料量少，目标函數複雜度高時，均易産生過拟合：

overfitting

總結來說：資料量少，采取hypothesis模型複雜度過高，目标函數很複雜時，均易産生過拟合！

overfitting

deterministic Noise是最優hypothesis和target function之間的差距（圖中灰色部分），determinstic Noise 總是存在的，因為hypothesis 不可能完美的拟合target function。為了縮小deterministic，當我們得知target不是那麼複雜時，選用的hypothesis 也應該盡可能簡單。

overfitting

二、如何解決overfitting

避免hypothesis set的vc dimension過大，那麼從簡單的hypothesis set開始做起！

避免Noise 的影響，對應就有data cleaning（修正錯誤資料點）或是data pruning （剔除錯誤資料點）！比如可利用k-means方法，找出離群點，進一步修正或是剔除！

overfitting

避免資料量太少，可以做data hinting！利用已有的資料做一些變化（平移旋轉），得到virtual example（與原有資料差别不要太大，防止破壞資料disturbtion）！

overfitting

當發現hypothesis 的複雜度已經過大時，可使用regularization！

以及使用validation 時刻關注拟合狀況！

overfitting

總結：

overfitting

overfitting

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告