IBM SPSS Statistics的K均值聚類分析,是一種采用歐式距離作為分類名額的疊代聚類分析方法。其優點是操作簡單,運算速度快,但由于其聚類原理是将歐式距離相似的資料歸為一個類别,是以需采用連續型的資料變量。
接下來,我們通過執行個體來示範一下K均值聚類分析。
一、資料準備
本例使用的是一組店鋪的銷售資料,包含客流量、銷售額與銷售量三個連續型變量。我們會使用到以上三個連續變量對資料個案進行K均值聚類分析。

圖1:店鋪資料
二、K均值聚類參數設定
K均值聚類分析是SPSS分類分析法中的一種,由于其運算的快速性,也被稱為“快速聚類”。
圖2:K均值聚類
如圖3所示,K均值聚類分析設定面闆包含變量、聚類中心等設定參數。
圖3:參數設定面闆
按照資料分析目的,如圖4所示,我們需将客流量、銷售額、銷售量添加為變量,然後再單擊右側的“儲存”按鈕,儲存“聚類成員”與“與聚類中心的距離”兩個新變量。
圖4:變量與儲存設定
接着,打開“疊代”設定,設定最大疊代次數,一般按照預設即可,如果預設次數過小,應盡量調大。
圖5:疊代次數
最後,設定分析的選項,如圖6所示,勾選“初始聚類中心”與“每個個案的聚類資訊”,以了解初始聚類與最終聚類的個案數目;勾選“ANOVA表”,檢驗分析的置信水準。
圖6:選項設定
三、結果解讀
運作分析後,回到資料表,如圖7所示,原資料表末端出現了兩個新變量,分别是“聚類成員”與“與聚類中心的距離”。我們可以從中觀察到每個個案所屬的聚類,以及該個案與聚類中心的距離。
圖7:生成新變量
而從分析結果看到,SPSS初始設定了兩個聚類。
圖8:初始聚類中心
而經過2次疊代運算後,最終聚類中心仍設定為兩個不變。
圖9:最終聚類中心
而從ANOVA分析表看到,客流量、銷售額、銷售量的顯著性都小于0.001,說明這三個變量都能很好地區分各個分類。
圖10:ANOVA檢驗
最後,從“每個聚類中的個案數目”可得到每一類别包含的個案數量。
圖11:聚類中的個案數目
四、小結
綜上所述,K均值聚類分析,可利用歐式距離的測量,快速地将距離相似的個案歸總為一個類别,但也要注意到的是,K均值聚類分析受異常值影響較大。
除K均值聚類,SPSS還提供了系統聚類、二階聚類的分類方法,可前往SPSS中文網站擷取更加系統的示範分享。