天天看點

過度拟合與欠拟合偏差和方差的定義介紹:過度拟合與欠拟合模型修改政策

偏差和方差的定義介紹:

偏差(Bias)

這裡的偏指的是 偏離 , 那麼它偏離了什麼到導緻了誤差? 潛意識上, 當談到這個詞時, 我們可能會認為它是偏離了某個潛在的 “标準”, 而這裡這個 “标準” 也就是真實情況 (ground truth). 在分類任務中, 這個 “标準” 就是真實标簽 (label).

通俗的說就是:

偏差度量了學習算法的期望預測與真實結果的偏離程式, 即 刻畫了學習算法本身的拟合能力 .

方差(Variance)

很多人應該都還記得在統計學中, 一個随機變量的方差描述的是它的離散程度, 也就是該随機變量在其期望值附近的 波動程度 . 取自維基百科一般化的方差定義:

也就是說:

方差度量了同樣大小的訓練集的變動所導緻的學習性能的變化, 即 刻畫了資料擾動所造成的影響

如果 X 是一個向量其取值範圍在實數空間Rn,并且其每個元素都是一個一維随機變量,我我們就稱 X 為随機向量。随機向>量的方差是一維随機變量方差的自然推廣,其定義為E[(X−μ)(X−μ)T],其中μ=E(X), XT是 X 的轉置.
過度拟合與欠拟合偏差和方差的定義介紹:過度拟合與欠拟合模型修改政策

假設紅色的靶心區域是學習算法完美的正确預測值, 藍色點為每個資料集所訓練出的模型對樣本的預測值, 當我們從靶心逐漸向外移動時, 預測效果逐漸變差.

很容易看出有兩副圖中藍色點比較集中, 另外兩幅中比較分散, 它們描述的是方差的兩種情況. 比較集中的屬于方差小的, 比較分散的屬于方差大的情況.

再從藍色點與紅色靶心區域的位置關系, 靠近紅色靶心的屬于偏差較小的情況, 遠離靶心的屬于偏差較大的情況.

過度拟合與欠拟合偏差和方差的定義介紹:過度拟合與欠拟合模型修改政策

圖中的紅色位置就是真實值所在位置,藍色的點是算法每次預測的值。

可以看出,偏差越高則離紅色部分越遠,而方差越大則算法每次的預測之間的波動會比較大。

具體參考:https://blog.csdn.net/simple_the_best/article/details/71167786

過度拟合與欠拟合

拟合概念

形象的說,拟合就是把平面上一系列的點,用一條光滑的曲線連接配接起來。因為這條曲線有無數種可能,進而有各種拟合方法。拟合的曲線一般可以用函數表示,根據這個函數的不同有不同的拟合名字

假設一個識别狗算法分類器:

過拟合

訓練集錯誤率:1%

測試集錯誤率:15%

偏差為:1%    方差為:15%-1%=14%    總誤差為  15%

雖然分類器訓練誤差非常低,但是沒能成功泛化到測試集。這叫做過拟合。
           

欠拟合

訓練集錯誤率:15%

測試集錯誤率:16%

偏差為:15% 方差為:1%   總誤差: 16%

該分類器具有高偏差和高方差。在訓練集和測試集上面都表現的很差。這叫做欠拟合。
           

最後一種情況

訓練集錯誤率:0.5%

測試集錯誤率:1%

偏差:0.5%   方差:0.5%  總誤差  1%

訓練集和測試集的都具有低方差和低偏差,分類器表現很好。
           

模型修改政策

過拟合:增大資料規模、減小資料特征數(維數)、增大正則化系數λ

欠拟合:增多資料特征數、添加高次多項式特征、減小正則化系數λ

繼續閱讀