- 線性基函數模型
- 基本形式
- Feature Extraction
- 最大化似然函數和最小均方差Maximum likelihood and least squares
- Example
線性基函數模型
基本形式
y(x,w)=w0+w1x1+⋯+wDxD=w0+∑j=1M−1wjϕj(x)=∑j=0M−1wjϕj(x)=wTϕ(x)
Feature Extraction
決定基函數(basis function) {ϕj(x)} 的過程,基函數選取可以包括
- 線性
- 幂次(存在着一個feature變化其他的feature也會變化的情況)
- 高斯: ϕj(x)=exp{−(x−μj)22s2}
- sigmoid function
最大化似然函數和最小均方差(Maximum likelihood and least squares)
讨論最大似然方法和最小均方差的關系
t=y(x,w)+ϵ
其中 ϵ 是均值為0的高斯随機值,精度為 β (後面很多地方用到這個參數,其含義是資料的随機精度,是由資料本身确定的,在機器學習的過程中隻能不斷的去迫近這個值)。即有目标值機率密度函數符合高斯分布
p(t|x,w,β)=(t|y(x,w,β−1))
一般來說,如果用均方差函數,那麼關于 t 的最優預測結果是分布的均值,對于上面的式子,其條件均值為
E[t|x]=∫tp(t|x)dt=y(x,w)
Example
Input values: X={x1,⋯,xN} , t={t1,⋯,tN} 是從上面的高斯随機分布中産生的資料,得到下面的似然函數
p(t|X,w,β)=∏n=1Nln(tn|wTϕ(xn),β−1)
是對于整個訓練資料的目标值的機率分布密度函數,忽略條件參數中的 X 并且取對數得到對數似然函數
lnp(t|w,β)=∑n=1Nln(tn|wTϕ(xn),β−1)=N2lnβ−N2ln(2π)−βED(w)
其中的 ED(w) 是均方誤差函數
ED(w)=12∑n=1N{tn−wTϕ(xn)}2
可以通過最大似然函數的方法去估計參數 w 和 β ,已知 在高斯噪聲的假設下(也就是說正常情況下最大化似然函數所覆寫的範圍是比最小化均方差大的),最大化似然函數等同于最小化均方差函數 ED(w) 。首先求對數似然函數關于 w 的梯度為
∇lnp(t|w,β)=∑n=1N{tn−wTϕ(xn)}ϕ(xn)T=0
存疑:這裡涉及到矩陣求導,貌似上式中最後一項 Φ(xn)T 是采取了分子布局的結果,如果采取分母布局的化,應該是
∇lnp(t|w,β)=∑n=1Nϕ(xn){tn−wTϕ(xn)}
但是兩者之間求出來的值是否一緻還不清楚,需要進一步讨論。
解得
0=∑n=1Ntnϕ(xn)T−wT∑n=1Nϕ(xn)ϕ(xn)T
對該式求解,得到
wML=(ΦTΦ)−1ΦTt
其中
Φ=⎛⎝⎜⎜⎜⎜ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)⎞⎠⎟⎟⎟⎟
這個推導過程還沒有自己驗證成功過 T^T
當把 ED(w) 中的 w0 提出來,得到
ED(w)=12∑n=1N{tn−wTϕ(xn)}2=12∑n=1N{tn−∑j=0M−1wjϕj(xn)}2=12∑n=1N{tn−w0−∑j=1M−1wjϕj(xn)}2
對 w0 求導,得到
w0=t⎯−∑j=1M−1wjϕj⎯⎯⎯⎯t⎯=1N∑n=1Ntnϕj⎯⎯⎯⎯=1N∑n=1Nϕj(xn)
是以實際上 w0 刻畫了目标值的均值和基函數的權重和的內插補點。相似的,易得 β 的最大似然估計為
1βML=1N∑n=1N{tn=wTMLϕ(xn)}2