深度學習總結四:邏輯回歸總結
-
- 邏輯回歸步驟
- 常見問題
- 參考
邏輯回歸代碼
公式推導
邏輯回歸步驟
邏輯回歸是一個分類算法。是以大緻步驟如下:
-
sigmoid函數二分類
對線性函數 y = w x + b y = wx + b y=wx+b使用sigmoid函數包裝為 σ ( y ) \sigma(y) σ(y),輸出 [ 0 , 1 ] [0,1] [0,1]的機率值。大于0.5為正樣本,小于0.5為負樣本。
優點:計算代價不高,易于了解和實作。
缺點:容易欠拟合,分類精度可能不高。
-
梯度下降求解
損失函數: J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ( p ( i ) ) + ( 1 − y ( i ) ) log ( 1 − p ( i ) ) ] J(θ)=− \frac{1}{m}\sum_{i=1}^m[y^{(i)}\log (p^{(i)}) + (1 - y^{(i)})\log (1-p^{(i)})] J(θ)=−m1i=1∑m[y(i)log(p(i))+(1−y(i))log(1−p(i))]
不對最小二乘法使用梯度下降原因:最小二乘法為凸函數,若使用梯度下降求解得到的權重值是極小值而不是最小值。
-
極大似然估計
使用對數似然法原因:1、将乘法運算變為加法運算。2、防止出現浮點數下溢。
常見問題
共線性問題給邏輯回歸或者線性回歸帶來的影響? 詳細推導
共線性并不影響模型的訓練精度。但是對于泛化精度,由于參數的估計已經不準确,是以泛化誤差要差些
a. 模型缺乏穩定性。樣本的微小擾動都可能帶來參數很大的變化;
b. 參數的标準差偏大,相應的 t 統計量會偏小,這樣容易淘汰一些不應淘汰的解釋變量,使統計檢驗的結果失去可靠性。
c. 難以區分每個解釋變量的單獨影響
邏輯回歸的優缺點
優點:
1.模型的可解釋性強,可以通過參數值看到特征對結果的影響
2.既可以得到分類結果也可以得到類别的機率值
3. 友善調整輸出結果,通過調整門檻值的方式
缺點:
1.模型的準确性不高
2.資料不平衡時,對正負樣本的區分能力差
3.模型對共線性問題比較敏感:變量共線性時,标準差比較大,模型不太穩定
邏輯回歸中的假設
1.因變量服從伯努利分布。
2.假設樣本為正的機率 p 為一個 Sigmoid 函數。
邏輯回歸與線性回歸的差別
1.線性回歸因變量服從高斯分布, 邏輯回歸要求因變量服從伯努利分布。
2.線性回歸要求因變量是連續性數值變量,而logistic回歸要求因變量是分類型變量。
3.線性回歸要求自變量和因變量呈線性關系,而logistic回歸不要求自變量和因變量呈線性關系
4.logistic回歸是分析因變量取某個值的機率與自變量的關系,而線性回歸是直接分析因變量與自變量的關系
5.線性回歸的損失函數是 square loss, 邏輯回歸的損失函數是 log-loss 檢視不同損失函數定義
參考
邏輯回歸