嶺回歸直接得到最優解的公式推導

2021-11-10 02:40:29

下面是線性回歸的公式推導，沒有加上 l2 正則化因子。

假設

\hat y = xw

y^=xw，因為

(

)

∣

−

\begin{aligned} l(w) &amp;= ||\hat y - y||_2^2=||xw-y||_2^2 \\ &amp;= (xw-y)^t(xw-y) \\ &amp;= w^tx^txw - y^txw - w^tx^ty + y^ty, \end{aligned}

l(w)=∣∣y^−y∣∣22=∣∣xw−y∣∣22=(xw−y)t(xw−y)=wtxtxw−ytxw−wtxty+yty,

是以

∂

\frac{\partial l(w)}{\partial w}= 2x^txw-x^ty-x^ty,

∂w∂l(w)=2xtxw−xty−xty,

令

\frac{\partial l(w)}{\partial w}=0

∂w∂l(w)=0，得

w=(x^tx)^{-1}x^ty.

w=(xtx)−1xty.

參考：周志華《機器學習》p55 “線性回歸”這一節的叙述。

上面定義的

l(w) =||\hat y - y||_2^2

l(w)=∣∣y^−y∣∣22 是經驗風險，在經驗風險的基礎上加上表示模型複雜度的正則化項（regularization）或者懲罰項（penalty term），即結構風險。是以線性回歸是經驗風險最小化，嶺回歸是結構風險最小化。

參考：李航《統計學習方法》（第二版）p18關于“經驗風險最小化”與“結構風險最小化”一節的叙述。

嶺回歸其實就是在損失函數上加上了一個 l2 正則，使得每個變量的權重不會太大。當某些特征權重比較大的時候，自變化變化一點點，就會導緻因變量變化很大，使得方差變大，有過拟合風險。

此時損失函數變為：

\begin{aligned} l(w) &amp;= ||\hat y - y||_2^2 + \lambda ||w||^2_2 =||xw-y||_2^2 + \lambda w^tw\\ &amp;= (xw-y)^t(xw-y) + \lambda w^tw\\ &amp;= w^tx^txw - y^txw - w^tx^ty+y^ty + \lambda w^tw, \end{aligned}

l(w)=∣∣y^−y∣∣22+λ∣∣w∣∣22=∣∣xw−y∣∣22+λwtw=(xw−y)t(xw−y)+λwtw=wtxtxw−ytxw−wtxty+yty+λwtw,

\frac{\partial l(w)}{\partial w}= 2x^txw-x^ty-x^ty + 2 \lambda w,

∂w∂l(w)=2xtxw−xty−xty+2λw,

w=(x^tx + \lambda e)^{-1}x^ty.

w=(xtx+λe)−1xty.

這裡

e 是一個機關矩陣。

1、嶺回歸原理及代碼實作

javascript:void(0)

2、矩陣求導公式，及mathjax公式編輯

3、mathjax基本的使用方式

嶺回歸直接得到最優解的公式推導

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

如何成為一名.net 工程師?

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告