過度拟合與欠拟合偏差和方差的定義介紹：過度拟合與欠拟合模型修改政策

2023-06-13 20:05:27

偏差和方差的定義介紹：

偏差(Bias)

這裡的偏指的是偏離 , 那麼它偏離了什麼到導緻了誤差? 潛意識上, 當談到這個詞時, 我們可能會認為它是偏離了某個潛在的 “标準”, 而這裡這個 “标準” 也就是真實情況 (ground truth). 在分類任務中, 這個 “标準” 就是真實标簽 (label).

通俗的說就是:

偏差度量了學習算法的期望預測與真實結果的偏離程式, 即刻畫了學習算法本身的拟合能力 .

方差(Variance)

很多人應該都還記得在統計學中, 一個随機變量的方差描述的是它的離散程度, 也就是該随機變量在其期望值附近的波動程度 . 取自維基百科一般化的方差定義:

也就是說:

方差度量了同樣大小的訓練集的變動所導緻的學習性能的變化, 即刻畫了資料擾動所造成的影響

如果 X 是一個向量其取值範圍在實數空間Rn，并且其每個元素都是一個一維随機變量，我我們就稱 X 為随機向量。随機向>量的方差是一維随機變量方差的自然推廣，其定義為E[(X−μ)(X−μ)T]，其中μ=E(X), XT是 X 的轉置.

過度拟合與欠拟合偏差和方差的定義介紹：過度拟合與欠拟合模型修改政策

假設紅色的靶心區域是學習算法完美的正确預測值, 藍色點為每個資料集所訓練出的模型對樣本的預測值, 當我們從靶心逐漸向外移動時, 預測效果逐漸變差.

很容易看出有兩副圖中藍色點比較集中, 另外兩幅中比較分散, 它們描述的是方差的兩種情況. 比較集中的屬于方差小的, 比較分散的屬于方差大的情況.

再從藍色點與紅色靶心區域的位置關系, 靠近紅色靶心的屬于偏差較小的情況, 遠離靶心的屬于偏差較大的情況.

過度拟合與欠拟合偏差和方差的定義介紹：過度拟合與欠拟合模型修改政策

圖中的紅色位置就是真實值所在位置，藍色的點是算法每次預測的值。

可以看出，偏差越高則離紅色部分越遠，而方差越大則算法每次的預測之間的波動會比較大。

具體參考:https://blog.csdn.net/simple_the_best/article/details/71167786

過度拟合與欠拟合

拟合概念

形象的說，拟合就是把平面上一系列的點，用一條光滑的曲線連接配接起來。因為這條曲線有無數種可能，進而有各種拟合方法。拟合的曲線一般可以用函數表示，根據這個函數的不同有不同的拟合名字

假設一個識别狗算法分類器：

過拟合

訓練集錯誤率：1%

測試集錯誤率：15%

偏差為：1%    方差為：15%-1%=14%    總誤差為  15%

雖然分類器訓練誤差非常低，但是沒能成功泛化到測試集。這叫做過拟合。

欠拟合

訓練集錯誤率：15%

測試集錯誤率：16%

偏差為：15% 方差為：1%   總誤差： 16%

該分類器具有高偏差和高方差。在訓練集和測試集上面都表現的很差。這叫做欠拟合。

最後一種情況

訓練集錯誤率：0.5%

測試集錯誤率：1%

偏差：0.5%   方差：0.5%  總誤差  1%

訓練集和測試集的都具有低方差和低偏差，分類器表現很好。

模型修改政策

過拟合：增大資料規模、減小資料特征數（維數）、增大正則化系數λ

欠拟合：增多資料特征數、添加高次多項式特征、減小正則化系數λ

過度拟合與欠拟合偏差和方差的定義介紹：過度拟合與欠拟合模型修改政策

偏差和方差的定義介紹：

偏差(Bias)

方差(Variance)

過度拟合與欠拟合

拟合概念

過拟合

欠拟合

最後一種情況

模型修改政策

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡