天天看点

最小二乘估计与极大似然估计

最小二乘估计与极大似然估计联系

给定m个样本数据, ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m)),其中 x ( i ) ∈ R n , y ( i ) ∈ R x^{(i)} \in \mathbb{R^n},y^{(i)} \in R x(i)∈Rn,y(i)∈R.

最小二乘估计

通过找到参数 θ \theta θ使得所有样本上的均方误差和最小,即损失函数为:

J ( θ ) = 1 2 m ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=2m1​i=1∑m​(y(i)−θTx(i))2

公式说明:

  1. 其中 y ( i ) y^{(i)} y(i)表示样本 i i i的真实值, θ T x ( i ) \theta^Tx^{(i)} θTx(i)表示样本i的预测值, θ ∈ R n \theta \in \mathbb{R^n} θ∈Rn为待求解的参数, y ( i ) − θ T x ( i ) y^{(i)}-\theta^Tx^{(i)} y(i)−θTx(i)即为样本 i i i的残差。
  2. 损失函数中除以 m m m的原因是为了平衡样本数量带来的影响,如果不除以 m m m, J ( θ ) J(\theta) J(θ)随着样本量增加而增加,对求解参数 θ \theta θ会带来一定的影响。

极大似然估计

极大似然估计是点估计中的一种用于估计参数的方式。假设总体的密度函数为 p ( x ; θ ) p(x;\theta) p(x;θ),当给定m个来自总体的样本 ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ( x ( 3 ) , y ( 3 ) ) . . . . ( x ( m ) , y ( m ) ) (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}) (x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))时,将m个样本的联合概率函数看作 θ \theta θ的函数,记作 L ( θ ; x ( 1 ) . . . x ( m ) ) L(\theta;x^{(1)}...x^{(m)}) L(θ;x(1)...x(m)),简记为 L ( θ ) L(\theta) L(θ):

L ( θ ) = p ( x ( 1 ) ; θ ) p ( x ( 2 ) ; θ ) . . . p ( x ( m ) ; θ ) = ∏ i = 1 m p ( x ( i ) ; θ ) L(\theta) = p(x^{(1)};\theta)p(x^{(2)};\theta)...p(x^{(m)};\theta) \\ = \prod_{i=1}^m p(x^{(i)};\theta) L(θ)=p(x(1);θ)p(x(2);θ)...p(x(m);θ)=i=1∏m​p(x(i);θ)

所以极大似然估计就是找到 θ \theta θ使得当前样本出现的可能性最大,即似然函数 L ( θ ) L(\theta) L(θ)最大。

注意:

  1. 似然函数不等同于概率,因为对似然函数求积分不一定为1;但是似然函数和概率是成比例的,也就是说如果 L ( θ 1 ) &lt; L ( θ 2 ) L(\theta_1)&lt;L(\theta_2) L(θ1​)<L(θ2​),那么参数估计得结果为 θ 2 \theta_2 θ2​的概率应该大于为 θ 1 \theta_1 θ1​的结果。
  2. 似然函数和概率密度函数的关系。对于二元函数 p ( x ; θ ) p(x;\theta) p(x;θ) ,给定 x x x带入时,得到仅与 θ \theta θ相关的函数即 L ( θ ) L(\theta) L(θ);给定 θ \theta θ时候带入时,得到仅与 x x x相关的函数即概率密度函数。
  3. 关于表示,一般竖线“|“表示条件概率即表明参数 θ \theta θ是一个随机变量,而分号“;”表示 θ \theta θ是一个参数,即是一个固定的值,只是我们不知道而已。后者代表了频率学派的观点,极大似然估计就是频率学派的思想。

联系

  1. 当最小二乘估计中每个样本的残差 ξ i \xi_i ξi​独立,且均服从均值为0,方差为 σ 2 \sigma ^2 σ2的高斯分布时,最小二乘估计和极大似然估计等价。记作如下:

    y ( i ) = θ T x ( i ) + ξ i ξ i ∼ N ( 0 , σ 2 ) y^{(i)} = \theta^Tx^{(i)}+\xi_i \\ \xi_i \sim N(0,\sigma^2) y(i)=θTx(i)+ξi​ξi​∼N(0,σ2)

    由于 ξ i \xi_i ξi​服从高斯分布,故其概率密度函数为:

    p ( ξ i ) = 1 2 π σ e − ξ i 2 2 σ 2 p(\xi_i) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}} p(ξi​)=2π

    ​σ1​e−2σ2ξi2​​

    将 ξ i = y ( i ) − θ T x ( i ) \xi_i = y^{(i)} - \theta^Tx^{(i)} ξi​=y(i)−θTx(i)带入则有:

    p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}} p(y(i)∣x(i);θ)=2π

    ​σ1​e−2σ2(y(i)−θTx(i))2​

    p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)}|x^{(i)};\theta) p(y(i)∣x(i);θ)可以理解为当参数为 θ \theta θ时, θ T x ( i ) \theta^Tx^{(i)} θTx(i)与 y ( i ) y^{(i)} y(i)接近的概率。对于给定m个样本,似然函数为:

    L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) L(θ)=i=1∏m​p(y(i)∣x(i);θ)

    对数似然函数为:

    l ( θ ) = l o g L ( θ ) = ∑ i = 1 m ( l o g ( 1 2 π σ ) − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = − m l o g ( 2 π σ ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 l(\theta) = log L(\theta) = \sum_{i=1}^m (log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ = -mlog(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 l(θ)=logL(θ)=i=1∑m​(log(2π

    ​σ1​)−2σ2(y(i)−θTx(i))2​)=−mlog(2π

    ​σ)−2σ21​i=1∑m​(y(i)−θTx(i))2

    利用极大似然估计即找到 θ \theta θ使得似然函数 L ( θ ) L(\theta) L(θ)最大,由于 l o g log log函数单调递增,似然函数$ L(\theta) 最 大 等 同 于 对 数 似 然 最大等同于对数似然 最大等同于对数似然 l(\theta) 最 大 。 在 对 数 似 然 函 数 表 达 式 最大。在对数似然函数表达式 最大。在对数似然函数表达式(5) 中 , 前 半 部 分 与 中,前半部分与 中,前半部分与\theta $无关,所以最大化对数似然函数等价与最小化:

    J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21​i=1∑m​(y(i)−θTx(i))2

    在式(8)中的 J ( θ ) J(\theta) J(θ)与最小二乘估计的目标函数仅仅相差了一个分子中的 m m m,而 m m m并不影响参数求解。所以可以看出,当**假设最小二乘法估计的残差服从独立同分布均值为0的高斯分布时,极大似然估计和最小二乘法估计是等价的**.

继续阅读