天天看點

機器學習1-Logistic回歸機器學習——Logistic回歸

機器學習1-Logistic回歸

  • 機器學習——Logistic回歸
    • 機器學習相關概念
    • Logistic回歸

機器學習——Logistic回歸

機器學習相關概念

機器學習相關概念

有監督學習:有标記。

無監督學習:沒有任何标記。

分類學習:例如郵件的分類:發送郵件,接收郵件,垃圾郵件等。

回歸學習:一個時間線上的東西,例如體重、年齡等。

模型泛化:訓練模型剛開始會給訓練集,但是學習完之後,讓他用于其他資料集。

過拟合:提高算法準确性,詳細展現了資料集各種特征,但是在新資料集效果差。

欠拟合:與過拟合相反。

Logistic回歸

機器學習最基本的算法之一,是一種廣義的線性回歸(generalized linear model),常用于資料挖掘,醫學領域和社會學等領域。雖然名字裡帶“回歸”,但是它實際上是一種分類方法,不僅能進行分類,還能擷取每個類别的機率預測值。

優點:實作簡單,易于了解和實作;計算代價不高,速度很快,存儲資源低。

缺點:容易欠拟合,分類精度不高。

常用于兩分類問題,是以利用了Logistic函數(或稱為Sigmoid函數),函數形式為:

機器學習1-Logistic回歸機器學習——Logistic回歸

函數圖像為:

// An highlighted block
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(-5,5,0.01)
y = 1/(1+np.exp(-x))

plt.plot(x,y)
plt.xlabel(‘z’)
plt.ylabel(‘y’)
plt.grid()
plt.show()
           
機器學習1-Logistic回歸機器學習——Logistic回歸

通過上圖我們可以發現 Logistic 函數是單調遞增函數,并且在z=0

而回歸的基本方程,将回歸方程寫入其中為:

機器學習1-Logistic回歸機器學習——Logistic回歸

是以,

機器學習1-Logistic回歸機器學習——Logistic回歸

當z≥0 時,y≥0.5,分類為1,當 z<0時,y<0.5,分類為0,其對應的y值我們可以視為類别1的機率預測值。

對于模型的訓練而言:實質上來說就是利用資料求解出對應的模型的特定的ω。進而得到一個針對于目前資料的Logistic回歸模型。

而對于多分類而言,将多個二分類的邏輯回歸組合,即可實作多分類。

[1]: 機器學習算法(一): 基于邏輯回歸的分類預測

[2]: 2020.08.20_Task1_基于邏輯斯特模型,實作分類預測

[3]: 邏輯回歸LogisticRegression