天天看點

如何在IBM SPSS Statistics中進行K均值聚類分析

IBM SPSS Statistics的K均值聚類分析,是一種采用歐式距離作為分類名額的疊代聚類分析方法。其優點是操作簡單,運算速度快,但由于其聚類原理是将歐式距離相似的資料歸為一個類别,是以需采用連續型的資料變量。

接下來,我們通過執行個體來示範一下K均值聚類分析。

一、資料準備

本例使用的是一組店鋪的銷售資料,包含客流量、銷售額與銷售量三個連續型變量。我們會使用到以上三個連續變量對資料個案進行K均值聚類分析。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖1:店鋪資料

二、K均值聚類參數設定

K均值聚類分析是SPSS分類分析法中的一種,由于其運算的快速性,也被稱為“快速聚類”。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖2:K均值聚類

如圖3所示,K均值聚類分析設定面闆包含變量、聚類中心等設定參數。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖3:參數設定面闆

按照資料分析目的,如圖4所示,我們需将客流量、銷售額、銷售量添加為變量,然後再單擊右側的“儲存”按鈕,儲存“聚類成員”與“與聚類中心的距離”兩個新變量。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖4:變量與儲存設定

接着,打開“疊代”設定,設定最大疊代次數,一般按照預設即可,如果預設次數過小,應盡量調大。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖5:疊代次數

最後,設定分析的選項,如圖6所示,勾選“初始聚類中心”與“每個個案的聚類資訊”,以了解初始聚類與最終聚類的個案數目;勾選“ANOVA表”,檢驗分析的置信水準。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖6:選項設定

三、結果解讀

運作分析後,回到資料表,如圖7所示,原資料表末端出現了兩個新變量,分别是“聚類成員”與“與聚類中心的距離”。我們可以從中觀察到每個個案所屬的聚類,以及該個案與聚類中心的距離。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖7:生成新變量

而從分析結果看到,SPSS初始設定了兩個聚類。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖8:初始聚類中心

而經過2次疊代運算後,最終聚類中心仍設定為兩個不變。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖9:最終聚類中心

而從ANOVA分析表看到,客流量、銷售額、銷售量的顯著性都小于0.001,說明這三個變量都能很好地區分各個分類。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖10:ANOVA檢驗

最後,從“每個聚類中的個案數目”可得到每一類别包含的個案數量。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖11:聚類中的個案數目

四、小結

綜上所述,K均值聚類分析,可利用歐式距離的測量,快速地将距離相似的個案歸總為一個類别,但也要注意到的是,K均值聚類分析受異常值影響較大。

除K均值聚類,SPSS還提供了系統聚類、二階聚類的分類方法,可前往SPSS中文網站擷取更加系統的示範分享。

繼續閱讀