天天看點

Sklearn驗證曲線

每種估計器都有其優勢和缺陷。它的泛化誤差可以用偏差、方差和噪聲來分解。估計值的 偏差 是不同訓練集的平均誤差。估計值的 方差 用來表示它對訓練集的變化有多敏感。噪聲是資料的一個屬性。

在下面的圖中,我們可以看到一個函數 ​

​f(x) = \cos (\frac{3}{2} \pi x)​

​ 和這個函數的一些噪聲樣本。 我們用三個不同的估計來拟合函數: 多項式特征為1,4和15的線性回歸。我們看到,第一個估計最多隻能為樣本和真正的函數提供一個很差的拟合 ,因為它太簡單了(高偏差),第二個估計幾乎完全近似,最後一個估計完全接近訓練資料, 但不能很好地拟合真實的函數,即對訓練資料的變化(高方差)非常敏感。

​​http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_underfitting_overfitting_0011.png​​

繼續閱讀