天天看點

深度學習總結四:邏輯回歸總結

深度學習總結四:邏輯回歸總結

    • 邏輯回歸步驟
    • 常見問題
    • 參考

邏輯回歸代碼

公式推導

邏輯回歸步驟

邏輯回歸是一個分類算法。是以大緻步驟如下:

  1. sigmoid函數二分類

    對線性函數 y = w x + b y = wx + b y=wx+b使用sigmoid函數包裝為 σ ( y ) \sigma(y) σ(y),輸出 [ 0 , 1 ] [0,1] [0,1]的機率值。大于0.5為正樣本,小于0.5為負樣本。

    優點:計算代價不高,易于了解和實作。

    缺點:容易欠拟合,分類精度可能不高。

  2. 梯度下降求解

    損失函數: J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( p ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − p ( i ) ) ] J(θ)=− \frac{1}{m}\sum_{i=1}^m[y^{(i)}\log (p^{(i)}) + (1 - y^{(i)})\log (1-p^{(i)})] J(θ)=−m1​i=1∑m​[y(i)log(p(i))+(1−y(i))log(1−p(i))]

    不對最小二乘法使用梯度下降原因:最小二乘法為凸函數,若使用梯度下降求解得到的權重值是極小值而不是最小值。

  3. 極大似然估計

    使用對數似然法原因:1、将乘法運算變為加法運算。2、防止出現浮點數下溢。

常見問題

共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導

共線性并不影響模型的訓練精度。但是對于泛化精度,由于參數的估計已經不準确,是以泛化誤差要差些

a. 模型缺乏穩定性。樣本的微小擾動都可能帶來參數很大的變化;

b. 參數的标準差偏大,相應的 t 統計量會偏小,這樣容易淘汰一些不應淘汰的解釋變量,使統計檢驗的結果失去可靠性。

c. 難以區分每個解釋變量的單獨影響

邏輯回歸的優缺點

優點:

1.模型的可解釋性強,可以通過參數值看到特征對結果的影響

2.既可以得到分類結果也可以得到類别的機率值

3. 友善調整輸出結果,通過調整門檻值的方式

缺點:

1.模型的準确性不高

2.資料不平衡時,對正負樣本的區分能力差

3.模型對共線性問題比較敏感:變量共線性時,标準差比較大,模型不太穩定

邏輯回歸中的假設

1.因變量服從伯努利分布。

2.假設樣本為正的機率 p 為一個 Sigmoid 函數。

邏輯回歸與線性回歸的差別

1.線性回歸因變量服從高斯分布, 邏輯回歸要求因變量服從伯努利分布。

2.線性回歸要求因變量是連續性數值變量,而logistic回歸要求因變量是分類型變量。

3.線性回歸要求自變量和因變量呈線性關系,而logistic回歸不要求自變量和因變量呈線性關系

4.logistic回歸是分析因變量取某個值的機率與自變量的關系,而線性回歸是直接分析因變量與自變量的關系

5.線性回歸的損失函數是 square loss, 邏輯回歸的損失函數是 log-loss 檢視不同損失函數定義

參考

邏輯回歸

繼續閱讀