天天看點

幾句話梳理Linear Regression、Logistics Regression、Softmax Regression之間的共性與差別

      • 先來說說Linear Regression與正态分布高斯分布的關系
      • Linear Regression的基本步驟
      • 如何從Linear Regression引出Logistics Regression
      • Logistics Regression與Softmax Regression
      • 總結
      • 指數族分布

先來說說Linear Regression與正态分布(高斯分布)的關系

上過吳恩達老師的機器學習課程的都熟悉,吳恩達老師在引出Linear Regression的時候是用了一個房價的例子來說明,這裡我們同樣拿房價這個量來說事。

首先引出一個增量delta,這個變量往往用來分析某個量(如房價)的真實值與預測值之間的誤差,這個誤差一般來說,我們認為它是服從正态分布的,因為它是由許多個微小的因素(如采光,地段,交通等因素)的綜合影響造成的。

其實在許多實際問題中,很多随機現象都可以看成衆多因素的獨立影響的綜合反應(加性誤差),往往近似于正态分布,如果大家還記得中心極限定理的實體意義,那麼意義就在這裡;當然如果上述誤差量是乘性誤差,就需要取其對數或做其他處理。

想象一下,泊松分布是不是很像正态分布;多次均勻分布求和在求平均是不是也能得到正态分布,等等。

說到這裡,如果你還不是太明白,那我們接着往下看。

Linear Regression的基本步驟

首先,建立一個線性模型;

其次,利用MLE(極大似然估計)個高斯分布得到目标函數(至此這裡引出了最小二乘學習法);

注:在這一步中,在1804年高斯曾經反過來推導出了高斯分布,這也是高斯分布的由來。

最後,求取目标函數最小值,這裡有兩種方法;

–直接計算駐點,但是會涉及到求矩陣的逆;

–梯度下降法,避免了求矩陣的逆;

如何從Linear Regression引出Logistics Regression

上面說到,假設參數服從高斯分布,然後利用MLE,得到一個目标函數,再做優化,這就是Linear Regression的基本步驟,那麼如果從其引出Logistics Regression呢?好接着往下看。

先來說下二項分布與k項分布;

如果是一個二分類問題,那麼很明顯可以看成是兩點分布;

如果有m個樣本點,那麼就是一個二項分布,相當于重複m次實驗;

那我們來以此類舉;

如果是一個多分類問題呢,比如3分類,10分類,甚至更多乃至K類,那麼我們可以将其叫做k點分布,哈哈;

同樣的,如果有個m個樣本點,就可以轉化成一個k項分布;

好,我們暫且先記着這兩個名字:k點分布和k項分布;

前方高能。。。。。。。。

。。。。。。。。。。。。分割線。。。。。。。。。。。。。。。。

如果我們把Linear Regression中的高斯分布換成k項分布或者多項式分布(注意,k項分布和二項分布都屬于多項式分布),其他的不變,這時就變成了Logistics Regression和Softmax Regression;

Logistics Regression與Softmax Regression

Logistics Regression是一個二分類,或者叫0-1分類;

Softmax Regression就是一個多分類(0-1-2-…);

總結

Linear Regression可以對樣本是非線性的,但隻要對參數是線性的,就可以使用Linear Regression,對于x是否是線性無所謂,但是需要有時候做特征選擇;

Linear Regression是連續的,Logistics Regression與Softmax Regression是離散的;

Logistics Regression仍然屬于線性回歸的範疇,因為分界面是線性的,而且Logistics Regression是廣義線性模型(GLM)或者叫對數線性模型(LLM);

Linear Regression取對數似然的最小,是以在做梯度下降時,往負梯度方向;Logistics Regression則取對數似然的最大,做梯度下降往正梯度方向,但有時為了與線性回歸保持一緻,通常會取負對數似然;

一般而言,LR指的是Logistics Regression,而非Linear Regression;

Logistics Regression與Softmax Regression是真正做分類的首選,由于方法簡單,易于實作,效果良好,易于解釋,除了用于分類,還可以用于推薦系統;

在做特征選擇的時候要注意,有些時候,并不是特征越多,拟合效果越好;

指數族分布

最後想提一下一個比較特殊的分布—指數族分布;

大多數分布都可以寫成指數形式,即:

f(x) = Cexp(Ag(x)+B)

這就是一個指數族分布,如泊松分布,甚至是伯努利分布,都屬于指數族分布;提一下,Sigmoid函數就是由伯努利分布的指數族分布中推導計算得來的。

指數族概念的提出,是為了說明廣義線性模型(GLM),凡是符合指數族分布的随機變量,都可以用GLM回歸來分析。

繼續閱讀