例:
為了更深入了解我國環境的污染程度狀況,現利用
2009
年資料對全國
31
個省、自治區、
直轄市進行聚類分析。
解:
現在要分析我國各個地區的環境污染程度,
案例中選擇了各地區
“工業廢氣排放總量”
、
“工業廢水排放總量”和“二氧化硫排放總量”三個名額來反映不同污染程度的環境狀況,
同時選擇了北京等省市的資料加以研究。
這個問題屬于典型的多元分析問題,需要利用多
個名額
來分析各省市之間環境污染程度的差異。
是以,
可以考
慮利用快速聚類分析來研究
各省市之間的差異性,具體
操作步驟如下。
1)
打随書CD光牒中的資料檔案
9-2.sav
,選擇菜單欄中的【
A nalyze
(分析)
】→【
Classify
(分
類)
】→【
K-Means Cluster
(
K
均值聚類)
】指令,彈出【
K-Means Cluster Analysis
(
K
均
值聚類分析)
】對話框。
2)
在左側的候選變量清單框中将
X1
、
X2
和
X3
變量設定為聚類分析變量,将其添加至
【
Variables
(變量)
】清單框
中;同時選擇
Y
作為辨別變量,将其移入【
Label Cases by
(個案标記依據)
】清單框中。
3)
在【
Number of Clusters
(聚類數)
】文本框中輸入數值“
3
”
,表示将樣品利用聚類分析
分為三類,如下圖所示。
4)
單擊【
Save
(儲存)
】按鈕,彈出【
K-Means
Cluster
Analysis
:
Save
(
K
均值聚類分析:
儲存)
】
對話框;
勾選
【
Cluster membership
(聚類新成員)
】
和
【
Distanc e from cluster center
(與聚類中心的距離)
】
複選
框,
表示輸出樣品的聚類類别及距離,
其他選項保持系
統
預設設定,如下圖所示,單擊【
Continue
(繼續)
】
按鈕傳回主對話框。