在之前已知
$$
\begin{gathered}
Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\
解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y
\end{gathered}
$$
在實際應用時,如果樣本容量不遠遠大于樣本的特征次元,很可能造成過拟合,對這種情況,我們有下面三個解決方式:
1. 加資料
2. 特征選擇(降低特征次元)如 PCA 算法。
3. 正則化
正則化一般是在損失函數(如上面介紹的最小二乘損失)上加入正則化項(表示模型的複雜度對模型的懲罰)
作者:tsyw
連結:線性回歸 · 語雀 (yuque.com)
一般的,正則化架構有
$$
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+\underbrace{\lambda P(\omega)}{penalty}]
$$
當使用L1 Lasso時,對應正則化架構
$$
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||{1}]
$$
當使用L2 Ridge(嶺回歸)時,對應正則化架構
$$
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||^{2}{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]
$$
對于L2 Ridge,估計$\hat{\omega}$有
$$
\begin{aligned}
J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\
&=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\
&=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\
&=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\
\hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\
\frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\
2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\
\hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y
\end{aligned}
$$
利用2範數進行正則化不僅可以使模型選擇$\omega$較小的參數,同時也避免$X^{T}X$不可逆的問題
作者:tsyw
連結:線性回歸 · 語雀 (yuque.com)
在前面已經知道
$$
\begin{gathered}
y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \
\epsilon \sim (0,\sigma^{2})\y|x;\omega \sim N(\omega^{T}x,\sigma^{2})
\end{gathered}
$$
假設權重先驗也為高斯分布,即取先驗分布$\omega \sim N(0,\sigma_{0}^{2})$,又有
$$
\begin{aligned}
p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\
p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\
p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)}
\end{aligned}
$$
是以對于$\omega$的最大後驗,有
$$
\begin{aligned}
\hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 這裡應該是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最後再寫不影響\
&=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\
&=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\
&=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\
&=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\
&=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\
&=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right]
\end{aligned}
$$
從這裡就可以看出,正則化後的最小二乘估計等價于噪聲為高斯分布、先驗分布為高斯分布的最大後驗
再加上之前的,沒有正則化的最小二乘估計等價于噪聲為高斯分布的極大似然估計
我們可以按照下⾯的⽅式表述貝葉斯定理。如果在我們知道⽔果的種類之前,有⼈問我們哪個盒⼦被選中,那麼我們能夠得到的最多的資訊就是機率p(B)。我們把這個叫做先驗機率(prior probability),因為它是在我們觀察到⽔果種類之前就能夠得到的機率。⼀旦我們知道⽔果是橘⼦,我們就能夠使⽤貝葉斯定理來計算機率p(B | F )。這個被稱為後驗機率(posterior probability),因為它是我們觀察到F之後的機率。注意,在這個例⼦中,選擇紅盒⼦的先驗機率是 $\frac{4}{10}$,是以與紅盒⼦相⽐,我們更有可能選擇藍盒⼦。然⽽,⼀旦我們觀察到選擇的⽔果是橘⼦,我們發現紅盒⼦的後驗機率現在是$\frac{2}{3}$,是以現在實際上更可能選擇的是紅盒⼦。這個結果與我們的直覺相符,因為紅盒⼦中橘⼦的⽐例⽐藍盒⼦⾼得多,是以觀察到⽔果是橘⼦這件事提供給我們更強的證據來選擇紅盒⼦。事實上,這個證據相當強,已經超過了先驗的假設,使得紅盒⼦被選擇的可能性⼤于藍盒⼦。
來源:《PRML Translation》-P19
作者:馬春鵬
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
小結
線性回歸模型是最簡單的模型,但是麻雀雖小,五髒俱全,在這裡,我們利用最小二乘誤差得到了閉式解。同時也發現,在噪聲為高斯分布的時候,MLE 的解等價于最小二乘誤差,而增加了正則項後,最小二乘誤差加上 L2 正則項等價于高斯噪聲先驗下的 MAP解,加上 L1 正則項後,等價于 Laplace 噪聲先驗。
作者:tsyw