机器学习： k-means聚类对数据进行预分类k-means聚类步骤：聚类评估标准总结代码示例

2021-11-22 23:50:00

k-means聚类

非监督学习

把数据划分为k个类别

-知道类别个数

-不知道类别个数超参数

k = 3

步骤：

1、随机在数据中抽取3个样本，当做3个类别的中心点(k1, k2, k3)

2、计算其余的点分别到这三个中心点的距离，

每一个样本有3个距离(a, b, c)

从中选出举例最近的一个点作为自己的标记，行成3个族群

3、分别计算这3个族群的平均值，把3个平均值与之前的3个旧中心点进行比较

4、如果相同结束聚类，如果不同，把这3个平均值当做新的中心点重复第2步

聚类评估标准

轮廓系数

计算公式

机器学习： k-means聚类对数据进行预分类k-means聚类步骤：聚类评估标准总结代码示例

对于每个点i 为已聚类数据中的样本，

bi为i 到其他族群的所有样本的距离最小值

ai为i 到本身族群的距离平均值

最终计算出所有样本点的轮廓系数平均值

极端：

bi>>ai ，sci=1 完美

ai>>bi ，sci=−1 最差

轮廓系数取值[-1, 1]

总结

采用迭代算法，直观易懂并且非常实用

缺点：容易收敛到局部最优解（多次聚类）

聚类，用在分类之前

代码示例

# -*- coding: utf-8 -*-

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt


# 生成数据
X, y = make_blobs(n_samples=200, centers=3, n_features=5, random_state=0)

# k-means聚类
km = KMeans(n_clusters=3)
km.fit(X)
y_predict = km.predict(X)

# 评估聚类效果
print(silhouette_score(X, y_predict))
# 0.72

# 绘制聚类结果图
color = ["red", "green", "blue"]
colors = [color[i] for i in y_predict]

plt.figure()
plt.scatter(X[:, 1], X[:, 2], color=colors)
plt.savefig("a.png")

机器学习： k-means聚类对数据进行预分类k-means聚类步骤：聚类评估标准总结代码示例

k-means聚类

步骤：

聚类评估标准

总结

代码示例

继续阅读

开源低带宽语音编解码器

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希