4.1多元特征

上圖中列數即為特征的個數,行數是樣本數。函數假設如下:
其中x0=1。
4.2多變量梯度下降
和單變量的損失函數相同:
其中,
求導疊代如下:
4.3梯度下降法實踐1-特征縮放
特征之間的尺度變化相差很大(如一個是0-1000,一個是0-5),梯度算法需要非常多次的疊代才能收斂,如下圖所示:
方法:将各個特征縮放至大緻相同的尺度,最簡單的方法就是特征減去均值除以方差。如下所示:
4.4梯度下降法實踐2-學習率
學習率過小收斂慢,學習率過大可能導緻無法收斂。
通常通過三倍放大來考慮學習率的設定,比如:0.01,0.03,0.1,0.3,1,3,10……。
4.5特征和多項式回歸
比如一個二次模型:
或者三次模型:
可以通過建立新特征(即令):
進而将模型轉換成線性模型。
4.6正規方程
前提:對于某些線性回歸問題,使用正規方程求解一步到位(導數為零等式求解)。如下所示
直接令
。
參數的解直接為:
(X包含x0=1)。
梯度下降與正規方程的比較:
4.7正規方程及不可逆性:
(1)特征之間互相不獨立時不可逆;
(2)樣本數少于特征數時不可逆。