機器學習： k-means聚類對資料進行預分類k-means聚類步驟：聚類評估标準總結代碼示例

2021-11-22 23:50:00

k-means聚類

非監督學習

把資料劃分為k個類别

-知道類别個數

-不知道類别個數超參數

k = 3

步驟：

1、随機在資料中抽取3個樣本，當做3個類别的中心點(k1, k2, k3)

2、計算其餘的點分别到這三個中心點的距離，

每一個樣本有3個距離(a, b, c)

從中選出舉例最近的一個點作為自己的标記，行成3個族群

3、分别計算這3個族群的平均值，把3個平均值與之前的3個舊中心點進行比較

4、如果相同結束聚類，如果不同，把這3個平均值當做新的中心點重複第2步

聚類評估标準

輪廓系數

計算公式

機器學習： k-means聚類對資料進行預分類k-means聚類步驟：聚類評估标準總結代碼示例

對于每個點i 為已聚類資料中的樣本，

bi為i 到其他族群的所有樣本的距離最小值

ai為i 到本身族群的距離平均值

最終計算出所有樣本點的輪廓系數平均值

極端：

bi>>ai ，sci=1 完美

ai>>bi ，sci=−1 最差

輪廓系數取值[-1, 1]

總結

采用疊代算法，直覺易懂并且非常實用

缺點：容易收斂到局部最優解（多次聚類）

聚類，用在分類之前

代碼示例

# -*- coding: utf-8 -*-

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt


# 生成資料
X, y = make_blobs(n_samples=200, centers=3, n_features=5, random_state=0)

# k-means聚類
km = KMeans(n_clusters=3)
km.fit(X)
y_predict = km.predict(X)

# 評估聚類效果
print(silhouette_score(X, y_predict))
# 0.72

# 繪制聚類結果圖
color = ["red", "green", "blue"]
colors = [color[i] for i in y_predict]

plt.figure()
plt.scatter(X[:, 1], X[:, 2], color=colors)
plt.savefig("a.png")

機器學習： k-means聚類對資料進行預分類k-means聚類步驟：聚類評估标準總結代碼示例

k-means聚類

步驟：

聚類評估标準

總結

代碼示例

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希