機器學習實戰-51: 邏輯回歸分類算法(Logistic Regression)

深度學習原理與實踐(開源圖書)-總目錄，建議收藏，告别碎片閱讀！

邏輯回歸(Logistic Regression)分類算法屬于監督學習算法。常用分類算法包括：邏輯回歸(Logistic Regression, LR)、K最近鄰(k-Nearest Neighbor, KNN)、樸素貝葉斯模型(Naive Bayesian Model, NBM)、隐馬爾科夫模型(Hidden Markov Model)、支援向量機(Support Vector Machine)、決策樹(Decision Tree)、神經網絡(Neural Network)和內建學習(ada-boost)。

邏輯回歸(Logistic Regression)解決問題的邏輯是：面對一個回歸或者分類問題，建立代價函數，然後通過優化方法疊代求解出最優的模型參數，然後測試驗證我們這個求解的模型的好壞。邏輯回歸(Logistic Regression)可以用于回歸或者分類問題。邏輯回歸(Logistic Regression)分類算法能夠解決二進制分類和多元分類問題。

1 算法原理

線性回歸的主要思想就是通過曆史資料拟合出一條直線，用這條直線對新的資料進行預測。線性回歸的公式如下：

z = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 . . . + θ n x n = θ T x z=θ_0+θ_1x_1+θ_2x_2+θ_3x_3...+θ_nx_n=θ^Tx z=θ0+θ1x1+θ2x2+θ3x3...+θnxn=θTx

邏輯回歸(Logistic Regression)分類算法是将線性函數的結果映射到了sigmoid函數中。sigmoid函數的公式如下： h θ ( x ) = 1 / ( 1 + e − x ) hθ(x)=1/(1+e^{-x}) hθ(x)=1/(1+e−x)

sigmoid的函數輸出是介于(0，1)之間的，中間值是0.5; hθ(x)<0.5則說明目前資料屬于A類; hθ(x)>0.5則說明目前資料屬于B類。sigmoid函數看成樣本資料的機率密度函數。邏輯回歸(Logistic Regression)本質上也是線性回歸。

邏輯回歸(Logistic Regression)分類算法的核心步驟如下:

構造 predict 函數，一般采用Sigmoid函數;
構造 loss 函數, 一般采用對數損失函數
使用優化方法(梯度下降法、牛頓法等)最小化 loss 函數
反複疊代優化方法
輸出分類類别

邏輯回歸(Logistic Regression)分類算法的核心優勢如下：

計算伸縮性: 基于線性回歸，計算複雜度可控;
參數依賴性: 可調節參數較少;
普适性能力: 适用于連續型和離散型資料集；
抗噪音能力: 對缺失資料和異常資料比較敏感，需要特别關注;
結果解釋性: 理論明确，解釋性好。

2 算法執行個體

[ToDo, Coming soon]

3 典型應用

在醫學、社會學和統計學等方面有廣泛用途。例如可以分析癌症和年齡之間的規律；可以分析早戀的社會學規律；可以分析個稅收入的地域差異等。

系列文章

機器學習原理與實踐(開源圖書)-總目錄
深度學習原理與實踐(開源圖書)-總目錄
Github: 機器學習&深度學習理論與實踐(開源圖書)

參考資料

[1] 周志華. 機器學習. 清華大學出版社. 2016.
[2] [日]杉山将. 圖解機器學習. 人民郵電出版社. 2015.
[3] 佩德羅·多明戈斯. 終極算法-機器學習和人工智能如何重塑世界. 中信出版社. 2018.
[4] 李航. 統計學習方法. 2012.
[5] 機器學習算法–邏輯回歸原理介紹

機器學習實戰-51: 邏輯回歸分類算法(Logistic Regression)機器學習實戰-51: 邏輯回歸分類算法(Logistic Regression)

機器學習實戰-51: 邏輯回歸分類算法(Logistic Regression)

1 算法原理

2 算法執行個體

3 典型應用

系列文章

參考資料

繼續閱讀

資料分類資料分類的定義分類過程分類評價準則決策樹總結

機器學習中常見的分類算法

機器學習決策樹及python實作

搜尋算法小知識：QP之類目識别1.搜尋引擎中有一套多級類目體系，通常包含數十個一級類目、數百個二級類目、甚至還有三級和四

VGGNet-16(D級)實作--TensorFlowVGGNet

TensorFlow本地導入imdb資料集的方法寫在前面

[MoonML]-樸素貝葉斯分類器

Logistic regression ,Softmax regression and Newton's method

一步步完整實作VGGNet分類自己資料集（pytorch ,自己圖像資料集準備，前一篇部落格的細化）

【機器學習】Softmax Regression和類别不平衡問題Logistic RegressionSoftmax Regression機器學習3.6節類别不平衡問題的學習

sigmoid、softmax和交叉熵損失函數

梯度提升樹的二分類原理

scikit-learn之分類算法

4.【Python】分類算法—Factorization Machine（FM，因子分解機）4.【Python】分類算法—Factorization Machine（FM，因子分解機）前言一、FM模型二、交叉項的處理三、FM算法的求解三、FM算法實踐總結

分類算法1. 簡介2. 應用3. 聚類和分類算法的差別4. 分類分析算法選擇5. 分類評估6. 分類評估報告api

【分類算法】什麼是分類算法定義分類與聚類分類過程方法