天天看点

k均值聚类算法考试例题_K-均值聚类法实例解析

例:

为了更深入了解我国环境的污染程度状况,现利用

2009

年数据对全国

31

个省、自治区、

直辖市进行聚类分析。

解:

现在要分析我国各个地区的环境污染程度,

案例中选择了各地区

“工业废气排放总量”

“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,

同时选择了北京等省市的数据加以研究。

这个问题属于典型的多元分析问题,需要利用多

个指标

来分析各省市之间环境污染程度的差异。

因此,

可以考

虑利用快速聚类分析来研究

各省市之间的差异性,具体

操作步骤如下。

1)

打随书光盘中的数据文件

9-2.sav

,选择菜单栏中的【

A nalyze

(分析)

】→【

Classify

(分

类)

】→【

K-Means Cluster

(

K

均值聚类)

】命令,弹出【

K-Means Cluster Analysis

(

K

值聚类分析)

】对话框。

2)

在左侧的候选变量列表框中将

X1

X2

X3

变量设定为聚类分析变量,将其添加至

Variables

(变量)

】列表框

中;同时选择

Y

作为标识变量,将其移入【

Label Cases by

(个案标记依据)

】列表框中。

3)

在【

Number of Clusters

(聚类数)

】文本框中输入数值“

3

,表示将样品利用聚类分析

分为三类,如下图所示。

4)

单击【

Save

(保存)

】按钮,弹出【

K-Means

Cluster

Analysis

Save

(

K

均值聚类分析:

保存)

对话框;

勾选

Cluster membership

(聚类新成员)

Distanc e from cluster center

(与聚类中心的距离)

复选

框,

表示输出样品的聚类类别及距离,

其他选项保持系

默认设置,如下图所示,单击【

Continue

(继续)

按钮返回主对话框。