天天看點

k均值聚類算法考試例題_K-均值聚類法執行個體解析

例:

為了更深入了解我國環境的污染程度狀況,現利用

2009

年資料對全國

31

個省、自治區、

直轄市進行聚類分析。

解:

現在要分析我國各個地區的環境污染程度,

案例中選擇了各地區

“工業廢氣排放總量”

“工業廢水排放總量”和“二氧化硫排放總量”三個名額來反映不同污染程度的環境狀況,

同時選擇了北京等省市的資料加以研究。

這個問題屬于典型的多元分析問題,需要利用多

個名額

來分析各省市之間環境污染程度的差異。

是以,

可以考

慮利用快速聚類分析來研究

各省市之間的差異性,具體

操作步驟如下。

1)

打随書CD光牒中的資料檔案

9-2.sav

,選擇菜單欄中的【

A nalyze

(分析)

】→【

Classify

(分

類)

】→【

K-Means Cluster

(

K

均值聚類)

】指令,彈出【

K-Means Cluster Analysis

(

K

值聚類分析)

】對話框。

2)

在左側的候選變量清單框中将

X1

X2

X3

變量設定為聚類分析變量,将其添加至

Variables

(變量)

】清單框

中;同時選擇

Y

作為辨別變量,将其移入【

Label Cases by

(個案标記依據)

】清單框中。

3)

在【

Number of Clusters

(聚類數)

】文本框中輸入數值“

3

,表示将樣品利用聚類分析

分為三類,如下圖所示。

4)

單擊【

Save

(儲存)

】按鈕,彈出【

K-Means

Cluster

Analysis

Save

(

K

均值聚類分析:

儲存)

對話框;

勾選

Cluster membership

(聚類新成員)

Distanc e from cluster center

(與聚類中心的距離)

複選

框,

表示輸出樣品的聚類類别及距離,

其他選項保持系

預設設定,如下圖所示,單擊【

Continue

(繼續)

按鈕傳回主對話框。