最小二乘法的機率解釋
為什麼線上性回歸問題中我們選擇最小二乘法定義代價函數 J(θ) ?本小節将就這一問題進行讨論。
首先,我們假設對于每一個樣本執行個體 (x(i),y(i)) ,特征變量 x 和目标值y的關系如下:
y(i)=θTx(i)+ϵ(i)
其中, ϵ(i) 表示誤差。
讓我們進一步假設誤差 ϵ(i) 服從正态分布(也稱為高斯分布),即 ϵ(i)∼N(0,σ2) 。是以,誤差 ϵ 為獨立同分布(Independent and Identical Distribution,IID)。
P(ϵ(i))=12π−−√σexp(−(ϵ(i))22σ2)
當給定參數 θ 和 x 時,目标值y也服從正态分布,即 y(i)|x(i);θ∼N(θTx(i),σ2) 。
P(y(i)|x(i);θ)=12π−−√σexp(−(y(i)−θTx(i))22σ2)
注: x(i) 與 θ 之間為分号,表示 θ 為已知變量。
又因為似然函數(Likelihood Function)如下:
L(θ)=L(θ;X,Y)=P(Y|X;θ)
其中, Y 表示一個長度為訓練集大小的向量,X表示次元為訓練集數*特征變量數的矩陣。
将上述結論帶入似然函數可得:
L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)
為了計算出參數 θ ,我們采用極大似然估計。為了便于計算,我們可将上式轉變為最大化對數似然。
ℓ(θ)=logL(θ)=log∏i=1m12π−−√σexp(−(y(i)−θTx)22σ2)=∑i=1mlog12π−−√σexp(−(y(i)−θTx)22σ2)=mlog12π−−√σ−1σ2⋅12∑i=1m(y(i)−θTx(i))2
是以,我們不難發現最大化對數似然,實際上在最小化 12∑i=1m(y(i)−θTx(i))2 。