最小二乘法的機率解釋

為什麼線上性回歸問題中我們選擇最小二乘法定義代價函數 J(θ) ？本小節将就這一問題進行讨論。

首先，我們假設對于每一個樣本執行個體 (x(i),y(i)) ，特征變量 x 和目标值y的關系如下：

y(i)=θTx(i)+ϵ(i)

其中， ϵ(i) 表示誤差。

讓我們進一步假設誤差 ϵ(i) 服從正态分布（也稱為高斯分布），即 ϵ(i)∼N(0,σ2) 。是以，誤差 ϵ 為獨立同分布（Independent and Identical Distribution，IID）。

P(ϵ(i))=12π−−√σexp(−(ϵ(i))22σ2)

當給定參數 θ 和 x 時，目标值y也服從正态分布，即 y(i)|x(i);θ∼N(θTx(i),σ2) 。

P(y(i)|x(i);θ)=12π−−√σexp(−(y(i)−θTx(i))22σ2)

注： x(i) 與 θ 之間為分号，表示 θ 為已知變量。

又因為似然函數（Likelihood Function）如下：

L(θ)=L(θ;X,Y)=P(Y|X;θ)

其中， Y 表示一個長度為訓練集大小的向量，X表示次元為訓練集數*特征變量數的矩陣。

将上述結論帶入似然函數可得：

L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)

為了計算出參數 θ ，我們采用極大似然估計。為了便于計算，我們可将上式轉變為最大化對數似然。

ℓ(θ)=logL(θ)=log∏i=1m12π−−√σexp(−(y(i)−θTx)22σ2)=∑i=1mlog12π−−√σexp(−(y(i)−θTx)22σ2)=mlog12π−−√σ−1σ2⋅12∑i=1m(y(i)−θTx(i))2

是以，我們不難發現最大化對數似然，實際上在最小化 12∑i=1m(y(i)−θTx(i))2 。

CS229學習筆記（4）最小二乘法的機率解釋