1.線性回歸函數loss function :殘差平方和,系數1/2 消除求導時系數

為什麼選擇這個函數作為loss function?
,最後一項表示誤差項(error term),假設其 服從高斯分布且獨立同分布IID
PS:中心極限定理:如果誤差是由許多共同效應産生的,且都是獨立的,效應的綜合趨向于服從高斯分布。
是以
然後,求最大似然估計值,化簡後,發現相當于最小化上面的loss function函數
2.最小化loss function,确定參數θ
(1)最小二乘法,直接使用數學推導的公式
(2)梯度下降法(gradient descent) -得到局部最小值
a) batch gradient descent批梯度下降 :每次θ的更新疊代使用全部的訓練資料
b) 增量(随機)梯度下降:每次隻使用一條資料 (會不斷在收斂處徘徊)
(3)牛頓法
可求函數f(θ)=0的解
疊代式子:
求解最大似然估計時,可轉化成求L‘(θ)=0的解
當θ是向量時,疊代公式如下:
其中H是Hessian矩陣
牛頓法收斂速度快,疊代次數少,但是計算量較大(求Hessian矩陣的逆)。當θ的維數不是太大,總體還是計算得比較快。
3 locally weighted linear regression
每條資料的貢獻不一樣,增權重重系數ω
其中x是要預測的特征,與x越相似,權重越大。
θ無法預先計算,預測的特征x不同,θ的值也不一樣。
此方法稱為非參數學習算法