天天看点

机器学习之逻辑回归和k-means聚类

一、逻辑回归

逻辑回归定义:逻辑回归时一种解决二分类的算法,其可以应用在广告点击率、判断用户的性别、预测用户是否会购买给定的商品类以及判断一条评论是正面的还是负面的,回归公式为:

机器学习之逻辑回归和k-means聚类

输出:[0,1]区间的概率值,默认0.5作为阀值

其中:g(z)为sigmoid函数

逻辑回归的损失函数:与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解;

损失函数定义为:

机器学习之逻辑回归和k-means聚类

sklearn 逻辑回归API:sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)

LogisticRegression总结:

优点:

适合需要得到一个分类概率的场景;

缺点:

当特征空间很大时,逻辑回归的性能不是很好

(看硬件能力)

二、非监督学习之k-means

K -means步骤:

1.随机设置K个特征空间内的点作为初始的聚类中心;

2.对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别;

3.接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)

4.如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程

sklearn k-means API:sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)其中,n_clusters:开始的聚类中心数量,init:初始化方法,默认为’k-means ++’;labels_:默认标记的类型,可以和真实值比较(不是值比较)

Kmeans性能评估指标:

机器学习之逻辑回归和k-means聚类
机器学习之逻辑回归和k-means聚类

sklearn Kmeans性能评估指标API:sklearn.metrics.silhouette_score(X, labels),其中X:特征值,labels:被聚类标记的目标值

Kmeans 总结:

特点:采用迭代式算法,直观易懂并且非常实用;

缺点:容易收敛到局部最优解(多次聚类), 需要预先设定簇的数量(k-means++解决);

继续阅读