机器学习之逻辑回归和k-means聚类

2023-05-10 05:47:08

一、逻辑回归

逻辑回归定义：逻辑回归时一种解决二分类的算法，其可以应用在广告点击率、判断用户的性别、预测用户是否会购买给定的商品类以及判断一条评论是正面的还是负面的，回归公式为：

机器学习之逻辑回归和k-means聚类

输出：[0,1]区间的概率值，默认0.5作为阀值

其中：g(z)为sigmoid函数

逻辑回归的损失函数：与线性回归原理相同,但由于是分类问题，损失函数不一样，只能通过梯度下降求解；

损失函数定义为：

机器学习之逻辑回归和k-means聚类

sklearn 逻辑回归API：sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)

LogisticRegression总结：

优点：

适合需要得到一个分类概率的场景；

缺点：

当特征空间很大时，逻辑回归的性能不是很好

（看硬件能力）

二、非监督学习之k-means

K -means步骤：

1.随机设置K个特征空间内的点作为初始的聚类中心；

2.对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别；

3.接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

4.如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

sklearn k-means API:sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)其中，n_clusters:开始的聚类中心数量，init:初始化方法，默认为’k-means ++’；labels_:默认标记的类型，可以和真实值比较（不是值比较）

Kmeans性能评估指标：

机器学习之逻辑回归和k-means聚类

sklearn Kmeans性能评估指标API：sklearn.metrics.silhouette_score(X, labels)，其中X：特征值，labels：被聚类标记的目标值

Kmeans 总结：

特点：采用迭代式算法，直观易懂并且非常实用；

缺点：容易收敛到局部最优解(多次聚类), 需要预先设定簇的数量(k-means++解决);

机器学习之逻辑回归和k-means聚类

一、逻辑回归

二、非监督学习之k-means

继续阅读

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

极大似然法(ML)与最大期望法(EM)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希