天天看點

CS229學習筆記(4)最小二乘法的機率解釋

最小二乘法的機率解釋

為什麼線上性回歸問題中我們選擇最小二乘法定義代價函數 J(θ) ?本小節将就這一問題進行讨論。

首先,我們假設對于每一個樣本執行個體 (x(i),y(i)) ,特征變量 x 和目标值y的關系如下:

y(i)=θTx(i)+ϵ(i)

其中, ϵ(i) 表示誤差。

讓我們進一步假設誤差 ϵ(i) 服從正态分布(也稱為高斯分布),即 ϵ(i)∼N(0,σ2) 。是以,誤差 ϵ 為獨立同分布(Independent and Identical Distribution,IID)。

P(ϵ(i))=12π−−√σexp(−(ϵ(i))22σ2)

當給定參數 θ 和 x 時,目标值y也服從正态分布,即 y(i)|x(i);θ∼N(θTx(i),σ2) 。

P(y(i)|x(i);θ)=12π−−√σexp(−(y(i)−θTx(i))22σ2)

注: x(i) 與 θ 之間為分号,表示 θ 為已知變量。

又因為似然函數(Likelihood Function)如下:

L(θ)=L(θ;X,Y)=P(Y|X;θ)

其中, Y 表示一個長度為訓練集大小的向量,X表示次元為訓練集數*特征變量數的矩陣。

将上述結論帶入似然函數可得:

L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)

為了計算出參數 θ ,我們采用極大似然估計。為了便于計算,我們可将上式轉變為最大化對數似然。

ℓ(θ)=logL(θ)=log∏i=1m12π−−√σexp(−(y(i)−θTx)22σ2)=∑i=1mlog12π−−√σexp(−(y(i)−θTx)22σ2)=mlog12π−−√σ−1σ2⋅12∑i=1m(y(i)−θTx(i))2

是以,我們不難發現最大化對數似然,實際上在最小化 12∑i=1m(y(i)−θTx(i))2 。

繼續閱讀