詳解線性回歸-正則化-嶺回歸-頻率角度【白闆推導系列筆記】

在之前已知

\begin{gathered}

Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\

解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y

\end{gathered}

在實際應用時，如果樣本容量不遠遠大于樣本的特征次元，很可能造成過拟合，對這種情況，我們有下面三個解決方式：

1. 加資料

2. 特征選擇（降低特征次元）如 PCA 算法。

3. 正則化

正則化一般是在損失函數（如上面介紹的最小二乘損失）上加入正則化項（表示模型的複雜度對模型的懲罰）

作者：tsyw

連結：線性回歸 · 語雀 (yuque.com)

一般的，正則化架構有

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+\underbrace{\lambda P(\omega)}{penalty}]

當使用L1 Lasso時，對應正則化架構

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||{1}]

當使用L2 Ridge（嶺回歸）時，對應正則化架構

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}{Loss}+||\omega||^{2}{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]

對于L2 Ridge，估計$\hat{\omega}$有

\begin{aligned}

J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\

&=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\

&=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\

&=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\

\hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\

\frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\

2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\

\hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y

\end{aligned}

利用2範數進行正則化不僅可以使模型選擇$\omega$較小的參數，同時也避免$X^{T}X$不可逆的問題

作者：tsyw

連結：線性回歸 · 語雀 (yuque.com)

在前面已經知道

\begin{gathered}

y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \

\epsilon \sim (0,\sigma^{2})\y|x;\omega \sim N(\omega^{T}x,\sigma^{2})

\end{gathered}

假設權重先驗也為高斯分布，即取先驗分布$\omega \sim N(0,\sigma_{0}^{2})$，又有

\begin{aligned}

p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\

p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)}

\end{aligned}

是以對于$\omega$的最大後驗，有

\begin{aligned}

\hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 這裡應該是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最後再寫不影響\

&=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\

&=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\

&=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\

&=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right]

\end{aligned}

從這裡就可以看出，正則化後的最小二乘估計等價于噪聲為高斯分布、先驗分布為高斯分布的最大後驗

再加上之前的，沒有正則化的最小二乘估計等價于噪聲為高斯分布的極大似然估計

我們可以按照下⾯的⽅式表述貝葉斯定理。如果在我們知道⽔果的種類之前，有⼈問我們哪個盒⼦被選中，那麼我們能夠得到的最多的資訊就是機率p(B)。我們把這個叫做先驗機率（prior probability），因為它是在我們觀察到⽔果種類之前就能夠得到的機率。⼀旦我們知道⽔果是橘⼦，我們就能夠使⽤貝葉斯定理來計算機率p(B | F )。這個被稱為後驗機率（posterior probability），因為它是我們觀察到F之後的機率。注意，在這個例⼦中，選擇紅盒⼦的先驗機率是 $\frac{4}{10}$，是以與紅盒⼦相⽐，我們更有可能選擇藍盒⼦。然⽽，⼀旦我們觀察到選擇的⽔果是橘⼦，我們發現紅盒⼦的後驗機率現在是$\frac{2}{3}$，是以現在實際上更可能選擇的是紅盒⼦。這個結果與我們的直覺相符，因為紅盒⼦中橘⼦的⽐例⽐藍盒⼦⾼得多，是以觀察到⽔果是橘⼦這件事提供給我們更強的證據來選擇紅盒⼦。事實上，這個證據相當強，已經超過了先驗的假設，使得紅盒⼦被選擇的可能性⼤于藍盒⼦。

來源：《PRML Translation》-P19

作者：馬春鵬

原著：《Pattern Recognition and Machine Learning》

作者：Christopher M. Bishop

小結

線性回歸模型是最簡單的模型，但是麻雀雖小，五髒俱全，在這裡，我們利用最小二乘誤差得到了閉式解。同時也發現，在噪聲為高斯分布的時候，MLE 的解等價于最小二乘誤差，而增加了正則項後，最小二乘誤差加上 L2 正則項等價于高斯噪聲先驗下的 MAP解，加上 L1 正則項後，等價于 Laplace 噪聲先驗。

作者：tsyw

詳解線性回歸-正則化-嶺回歸-頻率角度【白闆推導系列筆記】

繼續閱讀

矩陣分解筆記（Notes on Matrix Factorization）

交叉熵損失函數二進制交叉熵損失函數多元交叉熵函數詳解

交叉熵損失函數原理和推導

機器學習之線性回歸（Linear Regression）

【AndrewNg機器學習】線性回歸(Linear Regression)1 單變量線性回歸2 多變量線性回歸

模糊綜合評價模型一.概述二.經典集合和模糊集合的基本概念三.隸屬函數的三種确定方法四.應用：模糊綜合評價

泛統計理論初探——模型評估的驗證政策資料挖掘-模型驗證政策簡介

線性回歸算法梳理機器學習的一些概念線性回歸

線性回歸算法梳理1. 機器學習的一些概念2. 線性回歸的原理3. 線性回歸損失函數、代價函數、目标函數4. 優化方法5. 線性回歸的評價名額6. 線性回歸sklearn參數詳解

線性回歸算法梳理（打卡task-1）

NILMTK——因子隐馬爾可夫之隐馬爾可夫1. 馬爾可夫鍊2.馬爾可夫模型3. 隐馬爾可夫模型4.HMM三種方式的實作5. hmmlearn應用

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

4 機率機器人 Probabilistic Robotics 擴充卡爾曼濾波算法1 前提介紹2 通過泰勒展式進行線性化3 擴充卡爾曼濾波算法（EKF）4 擴充卡爾曼濾波執行個體5 擴充卡爾曼濾波（EKF）公式推導6 擴充卡爾曼濾波的優缺點7 參考文獻

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法