天天看點

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

欠拟合與過拟合

首先看下面的圖 

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

對于圖中的一系列樣本點,當我們采用 y=θ0+θ1x 形式的時候,我們可能産生最左邊圖形式的拟合曲線;如果我們采用 y=θ0+θ1x+θ2x2 時候,我們就可以産生中間的拟合曲線;如果采用

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

形式,便會産生最右邊的拟合曲線。從三張圖中我們可以看出來,第一條曲線存在欠拟合問題,第三條的曲線存在過拟合問題。

局部權重線性回歸(Locally weighted linear regression)

在基本的

線性回歸

問題中,首先我們構造出預測函數h(x),然後變化參數θ使得誤差函數最小化,一旦θ确定,以後不會改變,所有的預測值都會使用着一個參數: 

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

相比之下,

局部權重線性回歸

方法執行如下的算法: 

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。
局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

x代表需要預測的值的輸入, x(i) 表示的是訓練的樣本的輸入值。從 w(i) 的表達式我們可以看出, (x(i)−x)2 可以了解成訓練值與預測值之間的距離,當距離越大w≈0,反之,距離越小,w≈1。是以,當距離需要計算的x很遠的訓練樣本值會在最小化時候變為0,而隻使用x周圍的局部點預測線性函數。如下圖 

局部權重線性回歸(Locally weighted linear regression) 線上性回歸中,由于對參數個數選擇的問題是在問題求解之前已經确定好的,是以參數的個數不能很好的确定,如果參數個數過少可能拟合度不好,産生欠拟合(underfitting)問題,或者參數過多,使得函數過于複雜産生過拟合問題(overfitting)。是以本節介紹的局部線性回歸(LWR)可以減少這樣的風險。

w中的

τ

稱為帶寬(bandwidth)參數,可以控制x周圍的概念,即控制距離x多遠可以參與線性函數的估計,

τ

越大,參與的點越多,反之,參與的點越少。 

由于局部權重線性回歸方法每個預測每一個點時候都需要重新計算一次 

θ的值,是以,算法費時間複雜度會很高,是一種non-parametric算法。前面的基本線性回歸是一種parametric學習算法。

個人部落格:http://www.houlaizhexq.com     houlaizhexq.github.io

繼續閱讀