如何在IBM SPSS Statistics中進行K均值聚類分析

2023-06-06 15:54:23

IBM SPSS Statistics的K均值聚類分析，是一種采用歐式距離作為分類名額的疊代聚類分析方法。其優點是操作簡單，運算速度快，但由于其聚類原理是将歐式距離相似的資料歸為一個類别，是以需采用連續型的資料變量。

接下來，我們通過執行個體來示範一下K均值聚類分析。

一、資料準備

本例使用的是一組店鋪的銷售資料，包含客流量、銷售額與銷售量三個連續型變量。我們會使用到以上三個連續變量對資料個案進行K均值聚類分析。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖1：店鋪資料

二、K均值聚類參數設定

K均值聚類分析是SPSS分類分析法中的一種，由于其運算的快速性，也被稱為“快速聚類”。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖2：K均值聚類

如圖3所示，K均值聚類分析設定面闆包含變量、聚類中心等設定參數。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖3：參數設定面闆

按照資料分析目的，如圖4所示，我們需将客流量、銷售額、銷售量添加為變量，然後再單擊右側的“儲存”按鈕，儲存“聚類成員”與“與聚類中心的距離”兩個新變量。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖4：變量與儲存設定

接着，打開“疊代”設定，設定最大疊代次數，一般按照預設即可，如果預設次數過小，應盡量調大。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖5：疊代次數

最後，設定分析的選項，如圖6所示，勾選“初始聚類中心”與“每個個案的聚類資訊”，以了解初始聚類與最終聚類的個案數目；勾選“ANOVA表”，檢驗分析的置信水準。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖6：選項設定

三、結果解讀

運作分析後，回到資料表，如圖7所示，原資料表末端出現了兩個新變量，分别是“聚類成員”與“與聚類中心的距離”。我們可以從中觀察到每個個案所屬的聚類，以及該個案與聚類中心的距離。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖7：生成新變量

而從分析結果看到，SPSS初始設定了兩個聚類。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖8：初始聚類中心

而經過2次疊代運算後，最終聚類中心仍設定為兩個不變。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖9：最終聚類中心

而從ANOVA分析表看到，客流量、銷售額、銷售量的顯著性都小于0.001，說明這三個變量都能很好地區分各個分類。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖10：ANOVA檢驗

最後，從“每個聚類中的個案數目”可得到每一類别包含的個案數量。

如何在IBM SPSS Statistics中進行K均值聚類分析

圖11：聚類中的個案數目

四、小結

綜上所述，K均值聚類分析，可利用歐式距離的測量，快速地将距離相似的個案歸總為一個類别，但也要注意到的是，K均值聚類分析受異常值影響較大。

除K均值聚類，SPSS還提供了系統聚類、二階聚類的分類方法，可前往SPSS中文網站擷取更加系統的示範分享。

上一篇: 并發場景下HashMap.get導緻cpu耗光

下一篇: 前端學習筆記（二）：call 、apply和bind

繼續閱讀