天天看點

詳解線性回歸-正則化-嶺回歸-頻率角度【白闆推導系列筆記】

在之前已知

$$

\begin{gathered}

Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\

解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y

\end{gathered}

$$

在實際應用時,如果樣本容量不遠遠大于樣本的特征次元,很可能造成過拟合,對這種情況,我們有下面三個解決方式:

1.  加資料

2.  特征選擇(降低特征次元)如 PCA 算法。

3.  正則化

正則化一般是在損失函數(如上面介紹的最小二乘損失)上加入正則化項(表示模型的複雜度對模型的懲罰)

作者:tsyw

連結:線性回歸 · 語雀 (yuque.com)

一般的,正則化架構有

$$

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+\underbrace{\lambda P(\omega)}{penalty}]

$$

當使用L1 Lasso時,對應正則化架構

$$

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||{1}]

$$

當使用L2 Ridge(嶺回歸)時,對應正則化架構

$$

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||^{2}{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]

$$

對于L2 Ridge,估計$\hat{\omega}$有

$$

\begin{aligned}

J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\

&=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\

&=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\

&=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\

\hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\

\frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\

2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\

\hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y

\end{aligned}

$$

利用2範數進行正則化不僅可以使模型選擇$\omega$較小的參數,同時也避免$X^{T}X$不可逆的問題

作者:tsyw

連結:線性回歸 · 語雀 (yuque.com)

在前面已經知道

$$

\begin{gathered}

y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \

\epsilon \sim (0,\sigma^{2})\y|x;\omega \sim N(\omega^{T}x,\sigma^{2})

\end{gathered}

$$

假設權重先驗也為高斯分布,即取先驗分布$\omega \sim N(0,\sigma_{0}^{2})$,又有

$$

\begin{aligned}

p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\

p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)}

\end{aligned}

$$

是以對于$\omega$的最大後驗,有

$$

\begin{aligned}

\hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 這裡應該是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最後再寫不影響\

&=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\

&=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\

&=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right]

\end{aligned}

$$

從這裡就可以看出,正則化後的最小二乘估計等價于噪聲為高斯分布、先驗分布為高斯分布的最大後驗

再加上之前的,沒有正則化的最小二乘估計等價于噪聲為高斯分布的極大似然估計

我們可以按照下⾯的⽅式表述貝葉斯定理。如果在我們知道⽔果的種類之前,有⼈問我們哪個盒⼦被選中,那麼我們能夠得到的最多的資訊就是機率p(B)。我們把這個叫做先驗機率(prior probability),因為它是在我們觀察到⽔果種類之前就能夠得到的機率。⼀旦我們知道⽔果是橘⼦,我們就能夠使⽤貝葉斯定理來計算機率p(B | F )。這個被稱為後驗機率(posterior probability),因為它是我們觀察到F之後的機率。注意,在這個例⼦中,選擇紅盒⼦的先驗機率是 $\frac{4}{10}$,是以與紅盒⼦相⽐,我們更有可能選擇藍盒⼦。然⽽,⼀旦我們觀察到選擇的⽔果是橘⼦,我們發現紅盒⼦的後驗機率現在是$\frac{2}{3}$,是以現在實際上更可能選擇的是紅盒⼦。這個結果與我們的直覺相符,因為紅盒⼦中橘⼦的⽐例⽐藍盒⼦⾼得多,是以觀察到⽔果是橘⼦這件事提供給我們更強的證據來選擇紅盒⼦。事實上,這個證據相當強,已經超過了先驗的假設,使得紅盒⼦被選擇的可能性⼤于藍盒⼦。

來源:《PRML Translation》-P19

作者:馬春鵬

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

小結

線性回歸模型是最簡單的模型,但是麻雀雖小,五髒俱全,在這裡,我們利用最小二乘誤差得到了閉式解。同時也發現,在噪聲為高斯分布的時候,MLE 的解等價于最小二乘誤差,而增加了正則項後,最小二乘誤差加上 L2 正則項等價于高斯噪聲先驗下的 MAP解,加上 L1 正則項後,等價于 Laplace 噪聲先驗。

作者:tsyw

繼續閱讀