例:
为了更深入了解我国环境的污染程度状况,现利用
2009
年数据对全国
31
个省、自治区、
直辖市进行聚类分析。
解:
现在要分析我国各个地区的环境污染程度,
案例中选择了各地区
“工业废气排放总量”
、
“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,
同时选择了北京等省市的数据加以研究。
这个问题属于典型的多元分析问题,需要利用多
个指标
来分析各省市之间环境污染程度的差异。
因此,
可以考
虑利用快速聚类分析来研究
各省市之间的差异性,具体
操作步骤如下。
1)
打随书光盘中的数据文件
9-2.sav
,选择菜单栏中的【
A nalyze
(分析)
】→【
Classify
(分
类)
】→【
K-Means Cluster
(
K
均值聚类)
】命令,弹出【
K-Means Cluster Analysis
(
K
均
值聚类分析)
】对话框。
2)
在左侧的候选变量列表框中将
X1
、
X2
和
X3
变量设定为聚类分析变量,将其添加至
【
Variables
(变量)
】列表框
中;同时选择
Y
作为标识变量,将其移入【
Label Cases by
(个案标记依据)
】列表框中。
3)
在【
Number of Clusters
(聚类数)
】文本框中输入数值“
3
”
,表示将样品利用聚类分析
分为三类,如下图所示。
4)
单击【
Save
(保存)
】按钮,弹出【
K-Means
Cluster
Analysis
:
Save
(
K
均值聚类分析:
保存)
】
对话框;
勾选
【
Cluster membership
(聚类新成员)
】
和
【
Distanc e from cluster center
(与聚类中心的距离)
】
复选
框,
表示输出样品的聚类类别及距离,
其他选项保持系
统
默认设置,如下图所示,单击【
Continue
(继续)
】
按钮返回主对话框。