天天看點

PRML第三章3.2偏置-方差分解

偏置-方差分解

前面讨論的情況是假定了基函數的數量和形式,如果使用有限的資料集訓練模型,使用最大似然或者最小平方,将會導緻過拟合問題。但是通過限制基函數的數量避免過拟合,則會限制模型描述資料中的規律。如何選擇合适的λ的值通過正則化來避免過拟合。

由第一章,我們知道–一旦确定了條件機率分布p(t|x),每一種的損失函數都能給出對應的最優預測結果。通常使用平方損失函數,此時的最優的預測由條件期望h(x)給出:

PRML第三章3.2偏置-方差分解

現在的問題是如何區分決策論中的平方損失函數及模型參數的最大似然估計中出現的平方和誤差函數。

通過1.5.5的證明,平方損失函數的期望:

PRML第三章3.2偏置-方差分解

第二項的出現是根據資料的噪聲造成,表示出期望損失能夠達到的最小值。而第一項對函數y(x)選擇有關,需要找到一個y(x)的解,使第一項最小。

假設我們使用由參數向量w控制的函數y(x,w)對y(x)模組化:1.貝葉斯觀點,模型的不确定性通過w的後驗分布表示。頻率派根據資料D對w進行點估計,然後試着通過以下方法表示估計的不确定性:

假設存在許多資料集,每個資料集大小為N,每個資料集都獨立地從分布p(t,x)中抽取。對任意給定的資料集D,運用算法,得到預測函數y(x;D).不同資料集會給出不同的函數,進而給出不同的平方損失的值。

考慮上式第一項的被積函數,對于一個特定的資料集D,形式為

PRML第三章3.2偏置-方差分解

由于這個量與特定的資料集D相關,對所有的資料集取平方。通過在括号内加上再減去ED[y(x;D)],然後展開:

PRML第三章3.2偏置-方差分解

關于D求期望:

PRML第三章3.2偏置-方差分解

第一項:平方偏置,表示所有資料集的平均預測與預期的回歸函數之間的差異;第二項,方差,度量了對于單獨資料集,模型給出的解在平均值附近波動的情況,與表明了函數y(x;D)對于特定資料集的選擇的敏感程度。

現在把展開式帶回平方誤差函數的期望公式中,得到對期望平方損失的分解:

PRML第三章3.2偏置-方差分解

我們的目标是最小化期望損失,它可以分解成偏置、方差和一個常數噪聲項。對于靈活的模型,偏置小,方差大;對于固定的模型,偏置大,方差小。有着最優預測能力的模型能在偏置和方差之間取得最優的平衡。

産生100個資料集合,每個集合包含N=25個資料點,都獨立從正弦曲線h(x)=sin(2πx)抽取。資料集編号l=1,2,….L,L=100。通過最小正則化誤差函數拟合一個帶有24個高斯基函數的模型,然後給出預測函數y(l)(x),如下圖。

PRML第三章3.2偏置-方差分解

第一行對應着較大的正則化系數λ,這是方差很小,偏置大。相反的是,最後一行,正則化系數小,方差大,偏置小。如果把M=25這種模型的多個解進行平均,會産生對回歸函數非常好的拟合。貝葉斯的核心就是将多各解權重平均—這是針對參數的後驗分布。

平均預測的得出:

PRML第三章3.2偏置-方差分解

其中有機率分布p(x)權重的x的積分由來自哪個機率分布的有限資料點的加和近似。下圖給出變量以及他們求和關于lnλ的圖像。

PRML第三章3.2偏置-方差分解

偏置-方差分解依賴對所有資料集求平均,而實際應用中隻有一個觀測集。如果擁有大量的已知規模的獨立的訓練資料集—将他們組合成一個大的訓練集,這回降低給定複雜度的模型額過拟合程度。

繼續閱讀