深度學習總結四：邏輯回歸總結

2023-05-18 21:46:59

深度學習總結四：邏輯回歸總結

- 邏輯回歸步驟
- 常見問題
- 參考

邏輯回歸代碼

公式推導

邏輯回歸步驟

邏輯回歸是一個分類算法。是以大緻步驟如下：

sigmoid函數二分類

對線性函數 y = w x + b y = wx + b y=wx+b使用sigmoid函數包裝為 σ ( y ) \sigma(y) σ(y)，輸出 [ 0 , 1 ] [0,1] [0,1]的機率值。大于0.5為正樣本，小于0.5為負樣本。

優點：計算代價不高，易于了解和實作。

缺點：容易欠拟合，分類精度可能不高。
梯度下降求解

損失函數： J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( p ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − p ( i ) ) ] J(θ)=− \frac{1}{m}\sum_{i=1}^m[y^{(i)}\log (p^{(i)}) + (1 - y^{(i)})\log (1-p^{(i)})] J(θ)=−m1i=1∑m[y(i)log(p(i))+(1−y(i))log(1−p(i))]

不對最小二乘法使用梯度下降原因：最小二乘法為凸函數，若使用梯度下降求解得到的權重值是極小值而不是最小值。
極大似然估計

使用對數似然法原因：1、将乘法運算變為加法運算。2、防止出現浮點數下溢。

常見問題

共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導

共線性并不影響模型的訓練精度。但是對于泛化精度，由于參數的估計已經不準确，是以泛化誤差要差些

a. 模型缺乏穩定性。樣本的微小擾動都可能帶來參數很大的變化；

b. 參數的标準差偏大，相應的 t 統計量會偏小，這樣容易淘汰一些不應淘汰的解釋變量，使統計檢驗的結果失去可靠性。

c. 難以區分每個解釋變量的單獨影響

邏輯回歸的優缺點

優點：

1.模型的可解釋性強，可以通過參數值看到特征對結果的影響

2.既可以得到分類結果也可以得到類别的機率值

3. 友善調整輸出結果，通過調整門檻值的方式

缺點：

1.模型的準确性不高

2.資料不平衡時，對正負樣本的區分能力差

3.模型對共線性問題比較敏感：變量共線性時，标準差比較大，模型不太穩定

邏輯回歸中的假設

1.因變量服從伯努利分布。

2.假設樣本為正的機率 p 為一個 Sigmoid 函數。

邏輯回歸與線性回歸的差別

1.線性回歸因變量服從高斯分布，邏輯回歸要求因變量服從伯努利分布。

2.線性回歸要求因變量是連續性數值變量，而logistic回歸要求因變量是分類型變量。

3.線性回歸要求自變量和因變量呈線性關系，而logistic回歸不要求自變量和因變量呈線性關系

4.logistic回歸是分析因變量取某個值的機率與自變量的關系，而線性回歸是直接分析因變量與自變量的關系

5.線性回歸的損失函數是 square loss，邏輯回歸的損失函數是 log-loss 檢視不同損失函數定義

參考

邏輯回歸

深度學習總結四：邏輯回歸總結