天天看點

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

貝葉斯線性回歸

3.3.1參數分布

關于線性拟合的貝葉斯方法。引入模型參數W的先驗分布(噪聲精度β被當做常數)。first,由前面公式定義的似然函數p(t|w)是w的二次函數的指數形式。w對應的共轭先驗是高斯分布:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

均值為m0,協方差為S0。

接着計算後驗分布,正比于似然函數與先驗分布的乘積。上面得知w的共轭先驗是高斯分布,是以後驗分布也是高斯分布。通過對指數項配平方,然後使用歸一化的高斯分布的結果找到歸一化系數,由此都可以得出後驗分布。根據2.116得到:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

由于後驗分布是高斯分布,衆數是均值。得到最大後驗權向量結果為:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

對于高斯先驗,考慮零均值各向同性高斯分布,此分布有精度參數α控制:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

對應的w的後驗分布由下式得到:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸
PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

後驗機率分布的對數由對數似然函數與先驗的對數求和得到,同時也是w的函數:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

我們可以得到後驗分布關于w的最大化等價于對平方和誤差函數加上一個二次正則項進行最小化。正則項對應于

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

λ=α/β。

考慮一個單一輸入變量x、一個單一目标變量t、一個形式為y(x,w)=w0 + w1x的線性模型。直接在參數空間中畫出先驗分布和後驗分布。現在我們來分析下面的圖:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

第一行對應于觀測到任何資料點之前的情況,給出了w空間的先驗機率分布的圖像,以及函數y(x,w)的六個樣本,這六個樣本的w都是從先驗分布中抽取。在第二行,觀測到一個資料點之後,資料點的位置(x,t)由右側一列中的藍色圓圈表示,左側一列是對于這個資料點的似然函數p(t,w)關于w的函數圖像。似然函數提供了溫和的限制,即直線必須穿過資料點附近的位置,其中附近的位置範圍由噪聲精度β提供。用來生成資料集的真實參數值a0=-0.3、a1=0.5在圖中用白色十字表示。把這個似然函數與第一行先驗機率相乘,然後歸一化,得到了第二行中間圖給出的後驗分布。從這個後驗機率分布抽取w的樣本,對應回歸函數y(x,w)被畫在右側一列。

與之前一樣,這個資料點由右側一列的藍色圓圈表示。第二個資料點自身對應的似然函數在左側一列圖中表示。把這個似然函數與第二行的後驗機率分布相乘,得到了第三行中間一列的後驗機率分布。後面的圖均有以上的方法得到後驗機率分布和似然函數。

3.3.2 預測分布

在實際應用中,我們需要知道對于新的x預測出的t,計算預測分布函數:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

t是訓練資料的目标變量的向量。目标變量的條件機率和後驗分布由上式表示得出,是以得到預測分布為:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

上式中第一項表示資料中的噪聲;第二項反映與參數w關聯的不确定性。由于噪聲和w的分布是互相獨立的高斯分布,他們的值可以相加。當額外的資料點被觀測到時,後驗機率分布會變窄。在N趨近于無窮的情況下,上式的第二項趨于0,進而預測分布的方差隻與β控制的具有可加性的噪聲相關。

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

在上圖中,調整一個由高斯基函數線性組合的模型,使其适應于不同規模的資料集,再觀察對應後的後驗機率分布。綠色的曲線對應産生資料點的函數sin(2πx)。N=1,N=2,N=4,N=5的資料集在四幅圖中通藍色圓圈表示。

上圖隻給出每個點處的預測方差與x的函數關系。現在下圖表示對于不同x的預測值之間的協方差:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

如果我們使用局部的基函數(高斯基函數),那麼在距離基函數中心較遠的區域,預測方差的第二項則會區域零,隻剩下噪聲β的逆。當對基函數所在的區域之外的區域進行外插時,模型對于做出的預測會變得相當确定。

3.3.3等價核

通過核方法得到的預測均值:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

上式被稱為平滑矩陣或者等價核。

圖中給出了三個不同x值的情況,核函數k(x,x’)的函數關系。它們局限在x=0的周圍,在x處的預測分布的均值y(x,MN)可以通過對目标值權重組合得到。距離x較近的資料點賦予較高的權值,距離較遠的資料點賦予較低的權值。如圖所示。

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

考慮Y(x)和y(x’)的協方差:

PRML第三章3.3貝葉斯線性回歸貝葉斯線性回歸

根據等價核的形式,我們可以看到在附近的點處的預測均值的相關性高,而對于距離較遠的則低。

上面提到的核函數解決回歸問題的另一種方法。直接定義一個局部核函數,然後在給定的觀測資料集的條件下,使用核函數對新的輸入變量x做預測。

繼續閱讀