本篇部落客要是根據 1、聚類的基本知識點_哔哩哔哩_bilibili系列視訊進行的學習記錄
一、SPSS聚類分析的基本知識點
1、什麼是聚類分析?
聚類分析(Cluster analysis)又叫做群集分析,通過一些屬性将對象或變量 分成不同的組别,在 同一類下的對象或變量在這些屬性上具有一些相似的特點。
兩種聚類類型
對個案(樣品、對象、被試)進行分類——Q型聚類。
對變量進行分類——R型聚類。
或者換一種說法:
樣本聚類又稱Q型聚類,它針對實測量進行分類,将特征相近的實測量分為一類,特征差異較大的實察量分在不同的類。
變量聚類又稱R型聚類,它針對變量分類,将性質相近的變量分為一類,将性質差異較大的變量分在不同的類。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5CN5MTOkJDNmlDNmljNhZjZmlzMwMWMlVDM0YWYwETN18CX0JXZ252bj91Ztl2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
例如:
對每一行進行聚類——Q型聚類
對每一列進行聚類——R型聚類(比如車重和油箱進行聚類)
2、SPSS聚類分析的方法。
(1) 快速聚類(k-均值聚類):最簡單的聚類方法,隻能對 連續資料進行聚類,隻能對樣品進行聚類,适合 大樣本聚類,不能自動确定類别數量。
(2) 系統聚類:可以對個案、變量進行聚類,可以對連續變量或分類變量進行聚類,适合樣本容量較小的情況,不能自動确定類别數量。
(3) 二階聚類:最 智能的聚類方法,可以對個案進行聚類,可以對 連續變量+分類變量進行聚類,适合 大樣本聚類, 能自動确定類别數量。
二、聚類分析的SPSS實操
1.k-均值聚類。
(1)操作要點。
首先把資料标準化。(SPSS: 分析->統計描述->描述)
聚類數:根據計算結果來定。
疊代數:可以改大一些。
儲存:“聚類成員和"與"聚類中心的距離”
選項:“ANOVA”和“每個個案聚類資訊”
(2)結果解讀:
a、讀最終聚類中心能夠反映分出來的這兩類的特點,可以自己起名字。
b、ANOVA顯示兩個或者多個類别的群體在聚類的各個變量上是否有差異,有差異說明聚類相對成功。
c、個案數顯示兩個或者多個類别的群體各有多少個被試。最好比較均勻,不要有類别太少。
(3)三線表的制作
SPSS步驟:
1. 資料标準化:分析->統計描述->描述
2. 分析->分類 -> K-均值聚類
選變量、聚類數(多嘗試幾個)、疊代(次數大一些,比如99次)、儲存(聚類變量、與聚類中心的距離)、選項(√ANOVA表——給出每個類别之間有沒有差異,我們是希望不同類别之間是有差異的,√每個類别的聚類資訊)
根據聚類中心我們看看能不能自己起名字
最終聚類中心 | ||
聚類 | ||
1 | 2 | |
Zscore(Income) | .97179 | -.51186 |
Zscore(Children) | -.45904 | .24179 |
Zscore(Family_Quotient) | 1.11281 | -.58614 |
ANOVA | ||||||
聚類 | 誤差 | F | Sig. | |||
均方 | df | 均方 | df | |||
Zscore(Income) | 298.452 | 1 | .503 | 598 | 593.830 | .000 |
Zscore(Children) | 66.595 | 1 | .890 | 598 | 74.799 | .000 |
Zscore(Family_Quotient) | 391.353 | 1 | .347 | 598 | 1127.055 | .000 |
F 檢驗應僅用于描述性目的,因為選中的聚類将被用來最大化不同聚類中的案例間的差别。觀測到的顯著性水準并未據此進行更正,是以無法将其解釋為是對聚類均值相等這一假設的檢驗。 |
我們可以看到顯著性是有差異的,這說明聚類相對成功。
至于三線表的制作我們可以借助excel(先把SPSS的表格複制粘貼到excel,在excel中進行必要行的删減或修改,添加三條線,最後粘貼到word文檔即可)
2.系統聚類
(1)操作要點。
繪制:樹狀圖(譜系圖)。
方法:“聚類方法"用"組間連接配接"。
“度量标準"根據資料類型標明:Q型聚類選“平方歐氏距離",R型聚類用“Pearson相關"。
“标準化"標明"Z得分"。
分群:根據聚類類型標明。
(2)結果解讀:
畫聚合系數随分類數變化圖:以聚合系數為縱坐标,類别為橫坐标,開始是N-1類。聚合系數圖從哪裡開始平緩就取那裡的分類數。
(3)圖表的制作。
我們可以看到在分成兩類比較合适
3、兩階聚類
(1)操作要點。
分類變量和連續變量按要求填入。
距離測量:全連續變量選“歐氏",否則選“對數似然"聚類數目:“自動确定"
輸出:“透視表”"、“建立聚類成員變量"