天天看點

最小二乘估計與極大似然估計

最小二乘估計與極大似然估計聯系

給定m個樣本資料, ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m)),其中 x ( i ) ∈ R n , y ( i ) ∈ R x^{(i)} \in \mathbb{R^n},y^{(i)} \in R x(i)∈Rn,y(i)∈R.

最小二乘估計

通過找到參數 θ \theta θ使得所有樣本上的均方誤差和最小,即損失函數為:

J ( θ ) = 1 2 m ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=2m1​i=1∑m​(y(i)−θTx(i))2

公式說明:

  1. 其中 y ( i ) y^{(i)} y(i)表示樣本 i i i的真實值, θ T x ( i ) \theta^Tx^{(i)} θTx(i)表示樣本i的預測值, θ ∈ R n \theta \in \mathbb{R^n} θ∈Rn為待求解的參數, y ( i ) − θ T x ( i ) y^{(i)}-\theta^Tx^{(i)} y(i)−θTx(i)即為樣本 i i i的殘差。
  2. 損失函數中除以 m m m的原因是為了平衡樣本數量帶來的影響,如果不除以 m m m, J ( θ ) J(\theta) J(θ)随着樣本量增加而增加,對求解參數 θ \theta θ會帶來一定的影響。

極大似然估計

極大似然估計是點估計中的一種用于估計參數的方式。假設總體的密度函數為 p ( x ; θ ) p(x;\theta) p(x;θ),當給定m個來自總體的樣本 ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))時,将m個樣本的聯合機率函數看作 θ \theta θ的函數,記作 L ( θ ; x ( 1 ) . . . x ( m ) ) L(\theta;x^{(1)}...x^{(m)}) L(θ;x(1)...x(m)),簡記為 L ( θ ) L(\theta) L(θ):

L ( θ ) = p ( x ( 1 ) ; θ ) p ( x ( 2 ) ; θ ) . . . p ( x ( m ) ; θ ) = ∏ i = 1 m p ( x ( i ) ; θ ) L(\theta) = p(x^{(1)};\theta)p(x^{(2)};\theta)...p(x^{(m)};\theta) \\ = \prod_{i=1}^m p(x^{(i)};\theta) L(θ)=p(x(1);θ)p(x(2);θ)...p(x(m);θ)=i=1∏m​p(x(i);θ)

是以極大似然估計就是找到 θ \theta θ使得目前樣本出現的可能性最大,即似然函數 L ( θ ) L(\theta) L(θ)最大。

注意:

  1. 似然函數不等同于機率,因為對似然函數求積分不一定為1;但是似然函數和機率是成比例的,也就是說如果 L ( θ 1 ) &lt; L ( θ 2 ) L(\theta_1)&lt;L(\theta_2) L(θ1​)<L(θ2​),那麼參數估計得結果為 θ 2 \theta_2 θ2​的機率應該大于為 θ 1 \theta_1 θ1​的結果。
  2. 似然函數和機率密度函數的關系。對于二進制函數 p ( x ; θ ) p(x;\theta) p(x;θ) ,給定 x x x帶入時,得到僅與 θ \theta θ相關的函數即 L ( θ ) L(\theta) L(θ);給定 θ \theta θ時候帶入時,得到僅與 x x x相關的函數即機率密度函數。
  3. 關于表示,一般豎線“|“表示條件機率即表明參數 θ \theta θ是一個随機變量,而分号“;”表示 θ \theta θ是一個參數,即是一個固定的值,隻是我們不知道而已。後者代表了頻率學派的觀點,極大似然估計就是頻率學派的思想。

聯系

  1. 當最小二乘估計中每個樣本的殘差 ξ i \xi_i ξi​獨立,且均服從均值為0,方差為 σ 2 \sigma ^2 σ2的高斯分布時,最小二乘估計和極大似然估計等價。記作如下:

    y ( i ) = θ T x ( i ) + ξ i ξ i ∼ N ( 0 , σ 2 ) y^{(i)} = \theta^Tx^{(i)}+\xi_i \\ \xi_i \sim N(0,\sigma^2) y(i)=θTx(i)+ξi​ξi​∼N(0,σ2)

    由于 ξ i \xi_i ξi​服從高斯分布,故其機率密度函數為:

    p ( ξ i ) = 1 2 π σ e − ξ i 2 2 σ 2 p(\xi_i) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}} p(ξi​)=2π

    ​σ1​e−2σ2ξi2​​

    将 ξ i = y ( i ) − θ T x ( i ) \xi_i = y^{(i)} - \theta^Tx^{(i)} ξi​=y(i)−θTx(i)帶入則有:

    p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}} p(y(i)∣x(i);θ)=2π

    ​σ1​e−2σ2(y(i)−θTx(i))2​

    p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)}|x^{(i)};\theta) p(y(i)∣x(i);θ)可以了解為當參數為 θ \theta θ時, θ T x ( i ) \theta^Tx^{(i)} θTx(i)與 y ( i ) y^{(i)} y(i)接近的機率。對于給定m個樣本,似然函數為:

    L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) L(θ)=i=1∏m​p(y(i)∣x(i);θ)

    對數似然函數為:

    l ( θ ) = l o g L ( θ ) = ∑ i = 1 m ( l o g ( 1 2 π σ ) − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = − m l o g ( 2 π σ ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 l(\theta) = log L(\theta) = \sum_{i=1}^m (log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ = -mlog(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 l(θ)=logL(θ)=i=1∑m​(log(2π

    ​σ1​)−2σ2(y(i)−θTx(i))2​)=−mlog(2π

    ​σ)−2σ21​i=1∑m​(y(i)−θTx(i))2

    利用極大似然估計即找到 θ \theta θ使得似然函數 L ( θ ) L(\theta) L(θ)最大,由于 l o g log log函數單調遞增,似然函數$ L(\theta) 最 大 等 同 于 對 數 似 然 最大等同于對數似然 最大等同于對數似然 l(\theta) 最 大 。 在 對 數 似 然 函 數 表 達 式 最大。在對數似然函數表達式 最大。在對數似然函數表達式(5) 中 , 前 半 部 分 與 中,前半部分與 中,前半部分與\theta $無關,是以最大化對數似然函數等價與最小化:

    J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21​i=1∑m​(y(i)−θTx(i))2

    在式(8)中的 J ( θ ) J(\theta) J(θ)與最小二乘估計的目标函數僅僅相差了一個分子中的 m m m,而 m m m并不影響參數求解。是以可以看出,當**假設最小二乘法估計的殘差服從獨立同分布均值為0的高斯分布時,極大似然估計和最小二乘法估計是等價的**.

繼續閱讀