天天看點

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

Logistic回歸

主題思想:通過對資料的分類邊界線建立回歸公式,進而實作分類

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

激活函數

将連續的數值轉化為0和1輸出;其中第一個函數實作0到1的資料轉換是不平滑的,有跳躍(求極值的過程會有麻煩),而第二個函數是漸變平滑的

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

Logistic回歸實作的過程:如下圖

1) 将樣本特征值與回歸系數相乘

2) 再将所有的特征值與回歸系數的乘積相加

3) 最後将加和代入sigmoid函數

4) 輸出一個範圍在0-1之間的值

5) 結果大于0.5的樣本歸入1類,小于0.5的樣本歸入0類

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

邏輯回歸的損失函數

不能直接使用線性回歸的損失函數,否則求導後會形成多個局部最小值點(偏導數為0),無法判斷

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

接着将最後的兩個公式代到第一個函數中去,最後整個損失函數就如下圖所示:

【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型

梯度下降法

  1. 基本介紹:

             無限制的多元函數極值求解方法;

             一種常用的機器學習參數求解法;

             通過疊代得到最小化的損失函數所對應的的模型參數

  2. 基本思路:

             在求解目标函數E(a)的最小值時,a沿着梯度下降的方向不斷變化求解最小值

    【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型
  3. 什麼是梯度

    假設優化目标是求解函數E(a)的最小值

    【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型
  4. 什麼是步長

             步長是梯度下降的速度控制器;

             步長太小:收斂速度慢

             步長太大:可能跳過函數最小值,導緻發散

  5. 怎麼判斷收斂

             人為規定疊代的次數

             規定門檻值

懲罰模型

  1. 懲罰(正則化)定義:

             通過在模型損失函數中增加一個正則項(懲罰項)來控制模型的複雜程度

             懲罰項:一般來說都是一個随着模型複雜度增加而增加的單調遞增函數

  2. 懲罰項(正則化)的優化公式:
    【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型
  3. 懲罰項(正則化)的優化目标:

    由于添加了懲罰項,優化目标就有原來的“求解參數使得模型誤差整體最小”,變成–>求解參數使得模型誤差整體最小同時使得模型複雜度最低

  4. 懲罰項(正則化)的目的:

    通過降低模型的複雜度,進而防止過拟合,提高模型的泛化能力

             解釋一:奧卡姆剃刀原理(Occam’s Razor):“如無必要,勿增實體(Entities should not be multiplied unnecessarily)”,

    翻譯過來就是–>能夠用簡單方法達到很好的效果,就沒有必要使用複雜的方法;

    原理進一步推廣就是–>如果簡單的模型就能達到很好的預測效果,就沒有必要使用複雜的模型

             解釋二:在模型中使用更多的自變量,一般情況下都會提高模型在訓練集上的表現,但同時也會提高模型的複雜度,降低模型在驗證集上的泛化能力,造成過拟合

  5. 常用的懲罰項(正則項):

    以線性回歸模型的損失函數為例,假設線性回歸模型需要求解的參數為列向量A,資料集中有N個樣本,則有L1和L2

    【機器學習(4)】邏輯回歸、損失函數、梯度下降法、懲罰模型
  6. 常用的懲罰項(正則項)特性

    L1正則系數: lasso回歸:

             L1是模型各個參數的絕對值之和

             L1可以将特征參數限制到0,是以L1會趨向于産生少量的特征,而其他的特征都是0

             L1也是以具有特征篩選的功能(被篩除的特征特征參數為0)

             L1通過融入少量的特征來防止過拟合

    L2正則系數:ridge回歸:

             L2是模型各個參數的平方和的開方值。

             L2隻能減小特征參數值,讓參數接近0,但不能将參數限制到0(不具備篩選特征值的功能)

             L2通過減少特征的參數值來防止過拟合

繼續閱讀