天天看點

線性回歸入門

線性回歸是利用數理統計中回歸分析,來确定兩種或兩種以上變量間互相依賴的定量關系的一種統計分析方法,運用十分廣泛。線性回歸,就是能夠用一個直線較為精确地描述資料之間的關系。這樣當出現新的資料的時候,就能夠預測出一個簡單的值。回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。隻有當變量與因變量确實存在某種關系時,建立的回歸方程才有意義。是以,作為自變量的因素與作為因變量的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變量和因變量的相關的程度。

一進制線性回歸方程的形式

如果隻有一個自變量X,而且因變量Y和自變量X之間的數量變化關系呈近似線性關系,就可以建立一進制線性回歸方程,由自變量X的值來預測因變量Y的值,這就是一進制線性回歸預測。

線性回歸入門

X是自變量,其中 

線性回歸入門

為截距項,

線性回歸入門

為斜率,

線性回歸入門

為誤差項

線性回歸入門

如下圖所示:

線性回歸入門

确定參數一定會有一個衡量标準的,這個衡量标準一般使用誤差平方和,簡單來說就是使用平方誤差和衡量預測值h和真實值的差距,但是為什麼是平方誤差呢?大家知道他的來曆嗎?在這裡解釋一下:

線性回歸入門

中間的線就是拟合的線,那麼我希望找到一個最佳的拟合線,如何衡量他呢?上面提到可以使用誤差平方和,那麼基于什麼誤差呢?第一個想到的就是基于資料點到回歸線的距離之和,求其所有距離并求和,得到一個距離誤差,如上圖其中一個資料點的距離為d1,求出圖中所在所有的距離相加求極小值即可,但是問題是求距離還是挺複雜的,有開方項,數學中不好計算,是以人們又提出直接使用函數值的差也是可以的,因為當函數值的差最小時,距離也是最小的,這樣可行,但是函數值相減有正有負是以需要加上絕對值,如上圖的|y-^y|,因為有絕對值不好計算,是以直接平方就不用考慮正負的事了,是以最終的誤差距離就使用誤差平方和進行衡量了即:

真實值y,預測值為y',則平方誤差為:(y-y')2

尋找合适的參數使的誤差平方和

線性回歸入門

最小

線性回歸入門

我們的優化函數就找到了,下面隻需求出使誤差平方和極值最小的參數(系數)即K,B

線性回歸入門

,使用最小二乘法(無偏估計)或者求偏導都可以求出參數

線性回歸入門

其中

線性回歸入門

是資料,

線性回歸入門

是均值,把資料帶進去就可以确定系數了,最簡單的一進制線性回歸就求出來了。

如果自變量X有兩個,就是二進制; 自變量X有多個,就是多元分析。Y=K1X1+K2X2+......+KnXn+B

多元線性回歸分析

在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯系的,由多個自變量的最優組合共同來預測或估計因變量,比隻用一個自變量進行預測或估計更有效,更符合實際。是以多元線性回歸比一進制線性回歸的實用意義更大。

多元和一進制差不多,不同的是一進制回歸是線,而多元回歸就是超平面了,例如二進制回歸就是平面,表達式就是形如:

線性回歸入門

假設訓練資料為:

線性回歸入門

求和可以寫成矩陣的形式:

線性回歸入門

以二進制回歸為例子,如下:

線性回歸入門
線性回歸入門

如果是三元以上的回歸就是超平面了。

後續邏輯回歸

回歸分析的主要算法包括:

線性回歸(Linear Regression)

邏輯回歸(Logistic regressions)

多項式回歸(Polynomial Regression)

逐漸回歸(Step Regression)

嶺回歸(Ridge Regression)

套索回歸(Lasso Regression)

彈性網回歸(ElasticNet)

繼續閱讀