机器学习之--逻辑回归

一、 Logistic算法原理

1、基本概念

logistic回归与线性回归实际上有很多相同之处，最大的区别就在于他们的因变量不同，其他的基本都差不多，正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalized linear model）。

广义线性模型家族：

若因变量是连续分布，就是多重线性回归

若因变量是二项分布，就是Logistic回归

若因变量是Poisson分布，就是Poisson回归

若因变量是负二项分布，就是负二项回归

logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。

注：看文档的时候，会遇到说逻辑回归是线性模型，也有说是非线性模型的，背后的逻辑大家分清楚：

逻辑回归的模型引入了sigmoid函数映射，是非线性模型，但本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。

2、算法特点

优点：

速度快，适合二分类问题

易解释，可以直接看到模型中各个变量的权重

易调整，能容易地更新模型，吸收新的数据

缺点：

对数据和场景的适应性有限，容易欠拟合，精度一般，不如树模型、SVM、adaboost等一些其他的常用分类模型给力。

3、算法应用

在Logistic回归模型中，y是一个定性变量，比如y=0或1，故其主要应用于研究某些分类事件发生的概率，如：银行业金融借贷场景中预测风险客户的违约逾期概率；气象局根据一些天气因素判断是否下雨；医疗机构根据病情特征判断客户患病的概率等。

结果分为两种：

概率预测：根据模型，预测事件发生的概率；

类型判别：将事件分类。

4、Logistic回归模型（相关公式）

以二项Logistic回归模型为例，由条件概率P(Y|X)表示（X取实数，Y取值0或1），为已知X的情况下，寻找Y为0或1的概率。

条件概率函数如下：

P ( y = 1 ∣ w , x ) = g ( z ) P(y=1|w,x)=g(z) P(y=1∣w,x)=g(z) （1）

P ( y = 0 ∣ w , x ) = 1 − g ( z ) P(y=0|w,x)=1-g(z) P(y=0∣w,x)=1−g(z) （2）

g ( z ) = 1 1 + e − z = 1 1 + e − ( w ∗ x + b ) g(z)=\frac{1}{1+{\rm e}^{-z}}=\frac{1}{1+e^{-(w*x+b)}} g(z)=1+e−z1=1+e−(w∗x+b)1

其中x是输入，y是输出，w、b为参数，w为权值向量，b称为偏置，w*x为w和x的内积。

其中g(z)为sigmoid函数，可以通俗的理解为，运用sigmoid函数，把线性函数z=w*x+b映射为非线性函数，把全数值到全数值的映射换为全数值到0-1区间的映射，我们知道，概率分布就是在[0,1]区间的，就可以用概率值进行类别的判别，而sigmoid函数也被称为判别函数。

从二项逻辑回归的公式可以看出，二项逻辑回归需满足两个假设：1、假设数据服从伯努利分布。2、假设模型的输出值是样本为正例的概率。

5、阈值

阈值的意思就是选择一个概率临界值，大于它则判断为正例（1），小于则判断为负例（0），阈值的选择要考虑实际业务和实际中可接受的误差。例如肿瘤患者的判断，若采用概率0.5为阈值，则患病概率等于0.49时，模型判断为阴性，其实患病概率高达49%，这个误差就是不可接受的，可以适当调高阈值，比如说0.2，当大于0.2时预警，预警后可进行全身检验，进一步确诊，减少漏网率。

6、损失函数

一般线性函数可以用平方误差作为损失函数，但逻辑回归的y值是不连续的，所以不可以用平方误差作为损失函数，下面推导下二项逻辑回归的损失函数：

将二项逻辑回归的定义函数（1）和（2）写成一个式子：

P ( y ∣ w , x ) = g w ( x ) y ( 1 − g w ( x ) ) 1 − y P(y|w,x ) = g_{w}(x)^y(1-g_{w}(x))^{1-y} P(y∣w,x)=gw(x)y(1−gw(x))1−y

其中y的取值只能是0或者1，公式的直观意思解释为：单个样本预测正确的概率。

得到了y的概率分布函数表达式，就可以用似然函数最大化来求解模型系数w。

似然函数的代数表达式为：

L ( w ) = ∏ i = 1 m ( g w ( x ( i ) ) ) y ( i ) ( 1 − g w ( x ( i ) ) ) 1 − y ( i ) L(w) = \prod\limits_{i=1}^{m}(g_{w}(x^{(i)}))^{y^{(i)}}(1-g_{w}(x^{(i)}))^{1-y^{(i)}} L(w)=i=1∏m(gw(x(i)))y(i)(1−gw(x(i)))1−y(i)

m为样本的个数，直观解释为整个样本预测正确的概率。

为了方便，一般用对数似然函数最大化，对数似然函数取反即为我们的损失函数J(w)。

J ( w ) = − l n L ( w ) = − ∑ i = 1 m ( y ( i ) l o g ( g w ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − g w ( x ( i ) ) ) ) J(w) = -lnL(w) = -\sum\limits_{i=1}^{m}(y^{(i)}log(g_{w}(x^{(i)}))+ (1-y^{(i)})log(1-g_{w}(x^{(i)}))) J(w)=−lnL(w)=−i=1∑m(y(i)log(gw(x(i)))+(1−y(i))log(1−gw(x(i))))

对损失函数J(w)求最小值，可以得到最优的权重值w

7、损失函数的优化方法

对于二元逻辑回归的损失函数极小化，有比较多的方法，最常见的有梯度下降法，坐标轴下降法，牛顿法等

8、正则化

正则化的目的就是防止过拟合。正则化可以直观理解为给需要训练的目标函数加上一些规则（限制），让他们不要自我膨胀，具有一定的泛化性，不会太复杂。正则化一般的形式是在损失函数后面加上正则项。常见的有L1正则化和L2正则化，即在普通的逻辑回归损失函数基础上，增加了L1的范数或L2的范数作为惩罚。

二元逻辑回归的L1正则化损失函数表达式如下：

J ( w ) = − ∑ i = 1 m ( y ( i ) l o g ( g w ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − g w ( x ( i ) ) ) ) + α ∣ ∣ w ∣ ∣ 1 J(w) = -\sum\limits_{i=1}^{m}(y^{(i)}log(g_{w}(x^{(i)}))+ (1-y^{(i)})log(1-g_{w}(x^{(i)}))) +\alpha ||w||_1 J(w)=−i=1∑m(y(i)log(gw(x(i)))+(1−y(i))log(1−gw(x(i))))+α∣∣w∣∣1

其中 ∣ ∣ w ∣ ∣ 1 ||w||_1 ∣∣w∣∣1 为 w w w的L1范数。

二元逻辑回归的L2正则化损失函数表达式如下：

J ( w ) = − ∑ i = 1 m ( y ( i ) l o g ( g w ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − g w ( x ( i ) ) ) ) + 1 2 α ∣ ∣ w ∣ ∣ 2 2 J(w) = -\sum\limits_{i=1}^{m}(y^{(i)}log(g_{w}(x^{(i)}))+ (1-y^{(i)})log(1-g_{w}(x^{(i)}))) +\frac{1}{2}\alpha||w||_2^2 J(w)=−i=1∑m(y(i)log(gw(x(i)))+(1−y(i))log(1−gw(x(i))))+21α∣∣w∣∣22

其中 ∣ ∣ w ∣ ∣ 2 ||w||_2 ∣∣w∣∣2 为 w w w的L2范数。

α \alpha α作为惩罚系数，调节惩罚项的大小

9、LogisticRegression参数解释

class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’liblinear’, max_iter=100, multi_class=’ovr’, verbose=0, warm_start=False, n_jobs=None)

参数说明如下：

penalty：惩罚项，str类型，可选参数为l1和l2，默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布，L2假设的模型参数满足高斯分布，所谓的范式就是加上对参数的约束，使得模型不会过拟合(overfit)，但是如果要说是不是加了约束就会好，这个没有人能回答，只能说，加约束的情况下，理论上应该可以获得泛化能力更强的结果。

dual：对偶或原始方法，bool类型，默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候，dual通常设置为False。

tol：停止求解的标准，float类型，默认为1e-4。就是求解到多少的时候，停止，认为已经求出最优解。

c：正则化系数λ的倒数，float类型，默认为1.0。必须是正浮点型数。像SVM一样，越小的数值表示越强的正则化。

fit_intercept：是否存在截距或偏差，bool类型，默认为True。

intercept_scaling：仅在正则化项为”liblinear”，且fit_intercept设置为True时有用。float类型，默认为1。

class_weight：用于标示分类模型中各种类型的权重，可以是一个字典或者’balanced’字符串，默认为不输入，也就是不考虑权重，即为None。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者自己输入各个类型的权重。举个例子，比如对于0,1的二元模型，我们可以定义class_weight={0:0.9,1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。当class_weight为balanced时，类权重计算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。

那么class_weight有什么作用呢？

在分类模型中，我们经常会遇到两类问题：

第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。

第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题。

random_state：随机数种子，int类型，可选参数，默认为无，仅在正则化优化算法为sag,liblinear时有用。

solver：优化算法选择参数，只有五个可选参数，即newton-cg, lbfgs , liblinear , sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：

liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。

lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。

newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。

sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。

saga：线性收敛的随机优化算法的的变重。

优化算法总结：

liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。

对于多分类问题，只有newton-cg,sag,saga和lbfgs能够处理多项损失，而liblinear受限于一对剩余(OvR)。啥意思，就是用liblinear的时候，如果是多分类问题，得先把一种类别作为一个类别，剩余的所有类别作为另外一个类别。一次类推，遍历所有类别，进行分类。

newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。

同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量，要么回到L2正则化。

从上面的描述，大家可能觉得，既然newton-cg, lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR，不支持MvM，这样如果我们需要相对精确的多元逻辑回归时，就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。

max_iter：算法收敛最大迭代次数，int类型，默认为100。仅在正则化优化算法为newton-cg, sag和lbfgs才有用，算法收敛的最大迭代次数。

multi_class：分类方式选择参数，str类型，可选参数为ovr和multinomial，默认为ovr。ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上。

OvR和MvM有什么不同？

OvR的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推。

而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2次分类。

可以看出OvR相对简单，但分类效果相对略差（这里指大多数样本分布情况，某些样本分布下OvR可能更好）。而MvM分类相对精确，但是分类速度没有OvR快。如果选择了OvR，则4种损失函数的优化方法liblinear，newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。

verbose：日志冗长度，int类型。默认为0。就是不输出训练过程，1的时候偶尔输出结果，大于1，对于每个子模型都输出。

warm_start：热启动参数，bool类型。默认为False。如果为True，则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）。

n_jobs：并行数。int类型，默认为None。为1的时候，用CPU的一个内核运行程序，2的时候，用CPU的2个内核运行程序。为-1的时候，用所有CPU的内核运行程序

参数解释部分出自：https://blog.csdn.net/jark_/article/details/78342644

机器学习之--逻辑回归

继续阅读

Andrew Ng Stanford机器学习公开课总结（12）:k-means, 混合高斯分布, EM算法Lecture 12 k-means, 混合高斯分布, EM算法

线性回归方程最小二乘法求线性回归梯度下降法求线性回归python库求线性回归

Spark2.3 决策树 decision tree 源码解析Spark2.3 决策树 decision tree 源码解析

R语言使用逻辑回归分类算法

拓端tecdat|R语言逻辑回归分析连续变量和分类变量之间的“相关性“

【内容算法】内容质量之标题党业务定义举例相关论文业内方案

Coursera NG 机器学习第七周 KMeans PCA 图像压缩 Python实现

机器学习代码实战——逻辑回归（Logistic Regression）1.实验目的2.导入必要模块并读取数据3.可视化分析数据4.数据预处理5.训练+预测

AI入门看这个就够了：人工智能知识树

西瓜书习题3.3(对率回归/logistic regression)3.3 编程实现对率回归，并给出西瓜数据集3.0 α \alpha α上的结果。

My Machine Learn(二)：逻辑回归(Logistic Regression)

[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

彻底搞懂Transformer原理，Attention is all your need

线性回归算法梳理（初版）

scikit-learn之分类算法

【python】【数据处理】画多维数据分布图