天天看點

機器學習筆記6-偏差與方差

偏差與方差

偏差與方差是一對孿生子,類似于後面我想寫的準确率和召回率

當我們的模型表現不佳時,通常是出現兩種問題,一種是高偏差問題,另一種是高方差問題。識别它們有助于選擇正确的優化方式,是以我們先來看下偏差與方差的意義。

- 偏差: 描述模型輸出結果的期望與樣本真實結果的差距。 

- 方差: 描述模型對于給定值的輸出穩定性。

機器學習筆記6-偏差與方差

上圖形象地解釋了偏差和方差的概念。就像打靶一樣,偏差描述了我們的射擊總體是否偏離了我們的目标,而方差描述了射擊水準的穩定性。接下來讓我們通過各種情況下訓練集和交叉驗證集的誤差曲線來直覺地了解高偏差與高方差的意義。

對于多項式回歸,當次數選取較低時會産生欠拟合,我們的訓練集誤差和交叉驗證集誤差都會很大;當次數選擇剛好時,訓練集誤差和交叉驗證集誤差都很小;當次數過大時會産生過拟合,雖然訓練集誤差很小,但交叉驗證集誤差會很大。

機器學習筆記6-偏差與方差

是以我們可以計算

機器學習筆記6-偏差與方差

機器學習筆記6-偏差與方差

,如果他們同時很大的話,就是遇到了高偏差問題,而

機器學習筆記6-偏差與方差

機器學習筆記6-偏差與方差

大很多的話,則是遇到了高方差問題。

對于正則化參數,使用同樣的分析方法,當參數比較小時容易産生過拟合現象,也就是高方差問題。而參數比較大時容易産生欠拟合現象,也就是高偏差問題。

機器學習筆記6-偏差與方差

學習曲線

無論你是要檢查你的學習算法是否正常工作或是要改進算法的表現,學習曲線都是一個十分直覺有效的工具。學習曲線的橫軸是樣本數,縱軸為訓練集和交叉驗證集的誤差。是以在一開始,由于樣本數很少,

機器學習筆記6-偏差與方差

幾乎為0,而

機器學習筆記6-偏差與方差

則非常大。随着樣本數的增加,

機器學習筆記6-偏差與方差

不斷增大,而

機器學習筆記6-偏差與方差

因為訓練資料增加而拟合得更好是以下降。是以 學習曲線 看上去如下圖:

機器學習筆記6-偏差與方差

在高偏差的情形下,

機器學習筆記6-偏差與方差

 與 

機器學習筆記6-偏差與方差

已經十分接近,但是 誤差 很大。這時候增加樣本數并不能給算法的性能帶來提升。

機器學習筆記6-偏差與方差

在高方差的情形下,

機器學習筆記6-偏差與方差

的 誤差 較小,

機器學習筆記6-偏差與方差

比較大,這時搜集更多的樣本很可能帶來幫助。 

機器學習筆記6-偏差與方差

總結

有了以上的分析手段,就能夠得出在何種場景下使用我們的改進政策:

  • [高偏差] 引入更多的相關特征
  • [高方差] 減少特征數量,去除非主要的特征
  • [高偏差] 減小正則化參數 λ
  • [高方差] 增加正則化參數 λ
  • [高偏差] 采用多項式特征
  • [高方差] 采集更多的樣本資料

參考部落格:https://blog.csdn.net/hertzcat/article/details/80035330?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

繼續閱讀