這一章從線性回歸模型的基本形式出發,主要圍繞線性基函數的回歸模型展開,分析了最大似然估計和最小平方誤差函數的關系、最小平方誤差函數的幾何意義、正則化的最小平方誤差,然後用偏置-方差分解的角度了解正則化項;用貝葉斯的思想分析線性回歸模型,介紹了模型證據的意義,最後分析線性回歸模型的局限性
線性基函數模型
基礎
回歸問題的最簡單模型是輸⼊變量的線性組合:
y(x,w)=w0+w1x1+...+wDxD
這通常被稱為線性回歸,模型的關鍵是它既是 {wk} 的線性函數,也是輸入變量 {xi} 的線性函數,雖然簡單但是也帶來了很大的局限性。
考慮将輸⼊變量的固定的⾮線性函數進⾏線性組合,形式為:
y(x,w)=w0+∑j=1M−1wjϕj(x)
其中, ϕj(x) 被稱為基函數,這個模型參數總數為M
這裡 w0 是偏置參數,可以融入系數中,得:
y(x,w)=∑j=0M−1wjϕj(x)=wTx
現在, y(w,x) 是x的非線性函數,但它依然是 w 的線性函數,一般模型依然被稱為線性模型
基函數選擇有很多如
(1)徑向基函數
ϕj(x)=exp{−(x−μj)22s2}
(2)sigmoid
σa=11+exp(−a)
最大似然與最小平方
現線上性回歸的模型已經搭建出來,考慮求解,假設⽬标變量 t 由确定的函數y(x,w)給出,這個函數被附加了⾼斯噪聲,即
t=y(x,w)+ϵ
假設噪聲是零均值的高斯随機變量,精度為 β ,則對應的機率分布滿足:
p(t|x,w,β)=N(t|y(x,w),β−1)
E[t|x]=∫tp(t|x)dt=y(x,w)
注意,這裡有一個假設:給定x的條件下,t的條件分布是單峰的,這對于⼀些實際應⽤來說是不合适的。對于不同問題而言,這或許會是修改loss的起源之一。那麼,對于一個觀測資料集 X={x1,...,xN} ,它對應的後驗機率為:
p(t|x,w,β)=∑n=1NN(tn|wTΦ(xn),β−1)
然後構造似然函數
ln p(t|w,β)==∑n=1Nln N(tn|wTϕ(xn),β−1)N2ln β−N2ln(2π)−βED(w)
其中,平方和誤差定義為:
ED(w)=12∑n=1N{tn−wTϕ(xn)}2
是以,平方和誤差本身就是出自高斯分布的前提假設的。
對似然函數求導并令導數為0,可得到:
wML=(ΦTΦ)−1ΦTt
上式是最小平方問題的規範方程,其中 Φ 是 N×M 的設計矩陣,有:
Φ=⎛⎝⎜⎜⎜⎜⎜⎜⎜ϕ0(x1)ϕ0(x2)...ϕ0(xN)ϕ1(x1)ϕ1(x2)...ϕ1(xN)............ϕM−1(x1)ϕM−1(x2)...ϕM−1(xN)⎞⎠⎟⎟⎟⎟⎟⎟⎟
對應的偏置為:
w0=t⎯−∑j=1M−1wjϕj⎯⎯⎯⎯
其中
t⎯=1N∑n=1Ntn
ϕj⎯⎯⎯⎯=1N∑n=1Nϕj(xn)
這裡,偏置 w0 補償了⽬标值的平均值(在訓練集上的)與基函數的值的平均值的權重求和之間的差。
同理
1βML=1N∑n=1N{tn−wTMLϕ(xn)}2
這裡,到噪聲精度的倒數由⽬标值在回歸函數周圍的殘留⽅差給出
最小平方的幾何描述
最小平方誤差的幾何意義是,目标變量投影到模型形成的超平面上,模型拟合的結果盡可能接近這個投影。這在一定程度上說明,最小平方誤差不可能完全拟合所有的訓練資料
正則化最小平方
可以通過添加正則化項的思想來控制過拟合,則總的誤差函數變為:
E=ED(w)+λEW(w)=12∑n=1N{tn−wTϕ(xn)}2+12wTw
這是一個二次函數,直接求導并令導數為0即可得
w=(λI+ΦTΦ)−1ΦTt
這裡,L2番薯的正則化項又被稱為脊回歸或者權值衰減。上面的損失函數還可以寫成更一般的形式:
12∑n=1N{tn−wTϕ(xn)}2+λ2∑j=1M∣∣wj∣∣q
不同的q值能得到不同的正則化函數輪廓線,
q=1時,被稱為套索(lasso),這是很常用的一種正則化,如果 λ 充分⼤,那麼某些系數 wj 會變為零,從⽽産⽣了⼀個稀疏模型,這個模型中對應的基函數不起作⽤。兩種正則化項的對比如下圖,圖中的圓表示以目标變量t為中心,形成了平方差損失,顯然越靠近中心表示越小(即越好),以原點為中心的是正則化項的形式,不同q産生不同的邊界形狀,當兩個形狀相交,表示w的一個解。而q=1時,往往在坐标軸上相交,是以就導緻w有很多0
多輸出
如果每個樣本對應的标簽數量 K>1 (目标變量記作目标向量t),則可以對于t的每個分量,引⼊⼀個不同的基函數集合,從⽽變成了多個獨⽴的回歸問題。而這裡考慮的是使用一組相同的基函數來對目标向量的所有分量模組化,如下
y(x,w)=WTϕ(x)
其中,其中 y 是⼀個K維列向量, W 是⼀個M×K的參數矩陣, ϕ(x) 是⼀個 M 維列向量,每個元素為ϕj(x),并且與之前⼀樣, ϕ0(x)=1 。現在假設目标向量的條件機率分布是各項同性的高斯分布,即
p(t|x,W,β)=N(t|WTϕ(x),β−1I)
則對于一組患側 t1,...,tn ,對應的對數似然函數為:
ln p(T|X,W,β)==∑n=1Nln N(tn|WTϕ(xn),β−1I)NK2ln(β2π)−β2∑n=1N∥∥tn−WTϕ(xn)∥∥2
這樣,可以得到最大似然的結果
WML=(ΦTΦ)−1ΦTT
偏置-方差分解
用最大似然發或者最小平方和誤差求解回歸問題會存在過拟合,正則化能抑制過拟合現象但是超參數不好取值。現在,用分解的方式考察超參數對模型的影響。
假設用平方損失函數求解回歸問題,則最優的預測結果如下:
h(x)=E[t|x]=∫tp(t|x)dt
假設我們用 y(x,w) 模組化,則平方損失函數的期望為:
E[L]=∫{y(x)−h(x)}2p(x)dx+∫∫{h(x)−t}2p(x,t)dxdt
現在,第二項與 y(x) 無關,是由資料本⾝的噪聲造成的,表⽰期望損失能夠達到的最⼩值。第⼀項與我們對函數 y(x) 的選擇有關,我們要找⼀個 y(x) 的解,使得這⼀項最⼩。實際上,由于資料有限,我們不能夠精确地知道 h(x)
現在假設有許多資料集,每個資料集的⼤⼩為N,并且每個資料集都獨⽴地從分布 p(t,x) 中抽取。對于任意給定的資料集 D ,可以學習算法到⼀個預測函數y(x;D)。不同的資料集會得到不同的函數,從⽽給出不同的平⽅損失的值。這樣,特定的學習算法的表現就可以通過取各個資料集上的表現的平均值來進⾏評估。
考慮是第一項被積函數,對于特定的資料集D,有
ED[{y(x;D)−h(x)}2]===ED[{y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2]ED[{{y(x;D)−ED[y(x;D)]}2+{ED[y(x;D)]−h(x)}2+2{y(x;D)−ED[y(x;D)]}{ED[y(x;D)]−h(x)}}]{ED[y(x;D)]−h(x)}2+ED[{y(x;D)−ED[y(x;D)]}2]
這裡,第一項為平方偏置,表示所有資料集的平均預測與預期的回歸函數之間的差異。第⼆項,被稱為⽅差,度量了對于單獨的資料集,模型所給出的解在平均值附近波動的情況,是以也就度量了函數 y(x;D) 對于特定的資料集的選擇的敏感程度
也就是我們得到了期望平方損失的分解:
期望損失=偏置2+方差+噪聲
其中
偏置2=∫{ED[y(x;D)]−h(x)}2p(x)dx
方差=∫ED[{y(x;D)−ED[y(x;D)]}2]p(x)dx
噪聲=∫∫{h(x)−t}2p(x,t)dxdt
公式可以看到,偏置和方差存在折中,對于靈活的模型,偏置較⼩,⽅差較⼤。對于固定的模型,偏置較⼤,⽅差較⼩。有着最優預測能⼒的模型時在偏置和⽅差之間取得最優的平衡的模型。
那麼它和正則化超參數有什麼關系呢,正則化的超參實際控制着這種平衡的關系,正則化系數大,則它要求不過過于拟合現有資料,是以不同資料得到的方差小,偏置大;反之,資料會相對拟合已有資料,不同資料集得到的模型預測方差大,但各個模型對自身的資料偏置小貝葉斯線性回歸
這裡講從貝葉斯的角度求解線性模型,它能避免最大似然的過拟合問題,也會引出使用訓練資料本身确定模型複雜度的自動化方法
參數分布
所謂貝葉斯方法就是先假設參數的一個已知先驗,然後求解後驗機率的方法。這裡假設模型參數 w 服從高斯分布
p(w)=N(w|w0,S0)
則對應的後驗機率必然滿足高斯分布
p(w|t)=N(w|mN,SN)
其中
mN=SN(S−10m0+βΦTt)
S−1N=S−10+βΦTΦ
這裡為了簡單起見,假設先驗分布為各向同性的高斯分布:
p(w|α)=N(w|0,α−1I)
則對應後驗的參數為:
mN=βSNΦTt
S−1N=αI+βΦTΦ
我們知道,後驗機率分布可以由對數似然函數和先驗的乘積得到,而回歸問題的對數似然函數是一個高斯形式,因而把後驗看做 w 的函數,兩邊取對數即可得:
ln p(w|t)=−β2∑n=1N{tn−wTϕ(xn)}2−α2wTw+const
這也就是說,以貝葉斯的觀點分析回歸問題,因為它存在的先驗假設,使得模型本身考慮了正則化參數的情況。
作者在這裡還舉了個順序學習的例子。假設線性回歸模型為 y(x,w)=w1x1+w2x2 ,則隻有兩個參數。現在我們初始化後,先得到參數空間的先驗分布和後驗分布。當新資料點被觀測時,計算對應的似然函數,而上一輪的後驗分布被當做先驗分布,兩者相乘得到目前輪的後驗分布,以此類推,如下圖
(2)預測分布
p(t|t,α,β)=∫p(t|w,β)p(w|t,α,β)dw
如果考慮 p(w|t)=N(w|wN,SN) , p(t|x,w,β)=N(t|y(x,w),β−1) ,則有:
p(t|x,t,α,β)=N(t|mTNϕ(x),σ2N(x))
其中
σ2N(x)=1β+Φ(x)TSNΦ(x)
等價核
對于高斯分布的先驗而言,得到的後驗恰好也是高斯分布,最大後驗的權向量結果必然是 wMAP=mN ,是以,現在預測均值可以寫成:
y(x,mN)=mTNϕ(x)=βϕ(x)TSNΦTt=∑n=1Nβϕ(x)TSNϕ(xn)tn
是以可以寫成核的形式
y(x,mN)=∑n=1Nk(x,xn)tn
其中
k(x,x′)=βϕ(x)TSNϕ(x′)
這個函數被稱為平滑矩陣或者等價核
貝葉斯模型比較
過拟合是機器學習中常見的問題之一,指的是一個模型由于過度複雜造成在訓練集中表現良好而在測試集中表現很差的現象,通常是由于參數過多導緻資料相對變小造成的。這是因為在采用極大似然估計的方式進行參數的點估計的時候,複雜的模型總是拟合出更好的結果。但是由于模型過于複雜,它的泛化能力并不一定好。頻率派通常采用加一個正規項和交叉驗證的方式處理過拟合問題。與此相對的貝葉斯學派用貝葉斯的方法給出一種自然的方法進行模型選擇, 找到一個複雜度适中的模型,同時避免了過拟合和欠拟合問題,不需要預先留出一部分資料進行驗證。
模型⽐較的貝葉斯觀點僅僅涉及到使⽤機率來表⽰模型選擇的不确定性,以及恰當地使⽤機率的加和規則和乘積規則。
假設我們想⽐較L個模型 {Mi} ,其中 i=1,...,L 。這⾥,⼀個模型指的是觀測資料 D 上的機率分布。我們假設資料是由這些玩模型中的一個生成的,但不知道究竟是哪一個,這種不确定性通過先驗機率分布p(Mi)表示,現在我們想估計對應的後驗分布:
p(Mi|D)∝p(Mi)p(D|Mi)
其中, p(D|Mi) 是模型證據,它表達了資料展現出的不同模型的優先級。兩個模型的模型證據的比值 p(D|Mi)p(D|Mj) 被稱為貝葉斯因子。
現在,假設模型由一個參數 w 控制,則模型證據為:
p(D|Mi)=∫p(D|w,Mi)p(w|Mi)dw
下面考慮一種對積分的近似方法。假設後驗分布在最⼤似然值 wMAP 附近是⼀個尖峰,寬度為 △w後驗 ,那麼可以⽤被積函數的值乘以尖峰的寬度來近似這個積分。如果進⼀步假設先驗分布是平的,寬度為 △w先驗 ,即 p(w)=1△w先驗 ,那麼有
p(D)=∫p(D|w)p(w)dw≃p(D|wMAP)△w後驗△w先驗
取對數,有
ln p(D)≃ln p(D|wMAP)+ln △w後驗△w先驗
這裡,第⼀項表⽰拟合由最可能參數給出的資料。對于平的先驗分布來說,這對應于對數似然。第⼆項⽤于根據模型的複雜度來懲罰模型
如果考慮一個有M個參數的模型,則有:
ln p(D)≃ln p(D|wMAP)+Mln △w後驗△w先驗
複雜度懲罰項的⼤⼩随着模型中可調節參數M的數量線性增加。随着我們增加模型的複雜度,第⼀項通常會增⼤,因為⼀個更加複雜的模型能夠更好地拟合資料,⽽第⼆項會減⼩,因為它依賴于M。由最⼤模型證據确定的最優的模型複雜度需要在這兩個互相競争的項之間進⾏折中。
優點:避免了過拟合的問題,并且使得模型能夠基于訓練資料⾃⾝進⾏對⽐。
缺點:需要對模型的形式作出假設,并且如果這些假設不合理,那麼結果就會出錯。
對于線性基函數模型,如果用貝葉斯方法求解,會難以求出參數 w <script type="math/tex" id="MathJax-Element-214">w</script>的解析解,書中提供了相應的近似方法,大緻意思是引入超參數,對超參數做相關近似,然後得到目标變量關于超參數的似然函數,按照似然估計的方法求解。這裡省略讨論
固定基函數的局限性
局限性的來源是我們假設了基函數在觀測到任何資料之前就被固定了下來
局限性:
(1)基函數難以估計
(2)資料維數很大,基函數的數量會随着輸入空間的次元D迅速增長,而且通常是指數方式的增長
真實資料的性質可能幫助緩解這種潛在的次元災難:
(1)輸入變量往往存在相關性
(2)目标變量可能隻依賴于資料流形中的少量可能的方向