Logistic regression 為什麼用 sigmoid ？

2023-03-28 11:04:24

假設我們有一個線性分類器：

我們要求得合适的 W ，使 0-1 loss 的期望值最小，即下面這個期望最小：

Logistic regression 為什麼用 sigmoid ？

一對 x y 的 0-1 loss 為：

Logistic regression 為什麼用 sigmoid ？

在資料集上的 0-1 loss 期望值為：

Logistic regression 為什麼用 sigmoid ？

由鍊式法則将機率p變換如下：

Logistic regression 為什麼用 sigmoid ？

為了最小化 R（h），隻需要對每個 x 最小化它的 conditional risk：

Logistic regression 為什麼用 sigmoid ？

由 0-1 loss 的定義，當 h（x）不等于 c 時，loss 為 1，否則為 0，是以上面變為：

Logistic regression 為什麼用 sigmoid ？

又因為

Logistic regression 為什麼用 sigmoid ？

是以：

Logistic regression 為什麼用 sigmoid ？

為了使條件風險最小，就需要 p 最大，也就是需要 h 為：

Logistic regression 為什麼用 sigmoid ？

上面的問題等價于找到 c＊，使右面的部分成立：

Logistic regression 為什麼用 sigmoid ？

取 log ：

Logistic regression 為什麼用 sigmoid ？

在二分類問題中，上面則為：

Logistic regression 為什麼用 sigmoid ？

即，我們得到了 log-odds ratio ！

接下來就是對 log-odds ratio 進行模組化，最簡單的就是想到線性模型：

Logistic regression 為什麼用 sigmoid ？

則：

Logistic regression 為什麼用 sigmoid ？

于是得到 sigmoid 函數：

Logistic regression 為什麼用 sigmoid ？

由此可見，log-odds 是個很自然的選擇，sigmoid 是對 log-odds 的線性模組化。

學習資料：

https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/

https://stats.stackexchange.com/questions/162988/why-sigmoid-function-instead-of-anything-else

推薦閱讀曆史技術博文連結彙總

也許可以找到你想要的：

[入門問題][TensorFlow][深度學習][強化學習][神經網絡][機器學習][自然語言處理][聊天機器人]

Logistic regression 為什麼用 sigmoid ？

繼續閱讀

機器學習基礎--偏差和方差偏差/方差（bias/variance）

泛化能力、方差、偏差、過拟合、欠拟合（2）泛化能力、方差、偏差、過拟合、欠拟合

GAN及其改進算法

MachineLearning學習——0219——深度學習之多層感覺機多層感覺機Multilayer Perceptron

資訊量，熵,聯合熵，互資訊，條件熵,相對熵（KL散度），交叉熵（cross entropy）

統計學習方法學習筆記（第七章　支援向量機）

PCA 主成分分析的執行個體程式

機器學習概述----機器學習并沒有那麼深奧，它很有趣(3)

軟間隔SVM---松弛變量&懲罰因子軟間隔SVM

提升方法AdaBoost算法

簡單易懂的線性回歸基礎和從極大似然估計推導最小二乘法首先假設有這樣一組資料

決策樹Decision Tree決策樹Reference

強化學習（reforcement learning）之Deep Q-network(DQN)算法簡介

深度學習第五章機器學習基礎前半部分

機器學習數學基礎（一）：機器學習與數學分析機器學習機器學習與數學分析

高斯過程 Gaussian Process一、什麼是高斯過程二、高斯分布三、從高斯分布到高斯過程四、高斯過程回歸五、參考