天天看點

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

本文轉載自: https://www.cnblogs.com/luowende2012/archive/2012/04/27/2473225.html 作者:dekevin 轉載請注明該聲明。

聚類分析是将實體或者抽象對象的集合分成相似的對象類的過程。本次實驗我将對同一批資料做兩種不同的類型的聚類;它們分别是系統聚類和K-mean聚類。其中系統聚類的聚類方法也采用3種不同方法,來考察對比它們之間的優劣。由于沒有樣本資料,是以不能根據其資料做判别分析。評價标準主要是觀察各聚類方法的所得到的類組間距離群組内聚類的大小。

 分析資料依然采用線性回歸所使用的标準化後的能源消費資料。

1.1 系統聚類

 本次實驗的系統聚類都是凝聚系統聚類,為了控制變量,都采用平方Euclidean距離。

1.1.1 最短距離聚類法

最短距離法聚類步驟如下:

  1. 規定樣本間的距離,計算樣本兩兩之間的距離,得到對稱矩陣。開始每個樣品自成一類。
  2. 選擇對稱矩陣中的最小非零元素。将兩個樣品之間最小距離記為D1,将這兩個樣品歸并成為一類,記為G1。
  3. 計算G1與其他樣品距離。重複以上過程直到所有樣品合并為一類。

我們在SPSS中實作最短距離分析非常簡單。單擊“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

”-->“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

” -->“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

”。将彈出如圖1-1所示的對話框,設定相應的參數即可。

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

 圖1-1 最短距離法

我們的資料已經做過标準化,在“轉化值”-->“标準化”選項上選無。

在統計量的聚類成員中選擇“無”,因為這是非監督分類,不需要指定最終分出的類個數。在繪制中選擇繪制“樹狀圖”。單擊确定,得到以下結果。

  1. 表3-1顯示了資料的缺失情況:

表1-1 資料彙總

我們的資料經過預處理,是以缺失值個數為0.

          2. 由于相關矩陣過于龐大,無法在文檔中貼出,得到的是一個非相似矩陣。表1-2是樣品聚類過程。樣品21和28在第一步合并為一類,它們之間的非相關系數最小,為0.211。在下一次合并是第十步。在第五步的時候,樣品2、27、14組成一類,出現群集,樣品個數為3。如上類推,可以解釋表格。

聚類表
群集組合 系數 首次出現階群集 下一階
群集 1 群集 2 群集 1 群集 2
1 21 28 .211 10
2 12 24 .465 6
3 2 27 .491 5
4 13 20 .585 9
5 2 14 .645 3 6
6 2 12 .678 5 2 7
7 2 7 .702 6 8
8 2 25 .773 7 9
9 2 13 .916 8 4 11
10 21 29 1.085 1 12
11 2 18 1.106 9 12
12 2 21 1.115 11 10 13
13 2 17 1.360 12 14
14 2 26 1.564 13 15
15 2 22 1.627 14 16
16 2 5 1.649 15 17
17 2 8 1.877 16 18
18 2 16 3.027 17 19
19 2 30 3.543 18 20
20 2 11 4.930 19 21
21 2 4 5.024 20 22
22 2 10 6.445 21 24
23 1 9 8.262 26
24 2 15 10.093 22 25
25 2 23 10.096 24 26
26 1 2 10.189 23 25 27
27 1 6 11.387 26 28
28 1 3 13.153 27 29
29 1 19 32.367 28

表1-2 聚類過程

我們可以通過更加形象直覺的樹狀圖來觀察整個聚類過程和聚類效果。如圖1-2所示,最短距離法組内距離小,但組間距離也較小。分類特征不夠明顯,無法凸顯各個省份的能源消耗的特點。但是我們可以看到廣東省能源消耗組成和其他省份特别不同,在其他方法中也顯現出來。

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

圖1-2 最短距離法聚類圖

1.1.2 組間聯接聚類

組間聯接聚類法定義為兩類之間的平均平方距離,即

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

。類CK和CL  合并為下一步的CM 則CM   與CJ距離的遞推公式為:

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

我們依然貼出組間聯接法的聚類表和樹狀圖。

  1. 聚類表如表1-3所示,相關解釋類似于表1-1所述。

       

聚類表
群集組合 系數 首次出現階群集 下一階
群集 1 群集 2 群集 1 群集 2
1 21 28 .211 10
2 12 24 .465 5
3 2 27 .491 6
4 13 20 .585 8
5 7 12 .840 2 7
6 2 14 .937 3 7
7 2 7 1.105 6 5 11
8 13 25 1.331 4 11
9 17 18 1.360 14
10 21 29 1.495 1 13
11 2 13 1.703 7 8 15
12 8 26 1.877 15
13 21 22 2.133 10 18
14 5 17 2.378 9 16
15 2 8 3.715 11 12 16
16 2 5 3.926 15 14 18
17 4 16 5.024 23
18 2 21 5.526 16 13 21
19 10 11 6.445 22
20 1 9 8.262 25
21 2 30 8.744 18 23
22 6 10 11.508 19 24
23 2 4 14.202 21 17 25
24 6 15 14.288 22 27
25 1 2 19.822 20 23 26
26 1 23 23.363 25 28
27 3 6 26.516 24 28
28 1 3 31.210 26 27 29
29 1 19 69.114 28

表1-2 組間聯接聚類法

         2. 樹狀圖如圖1-3所示,可以看到聚類的組間距離較大,組内距離較小。聚類結果較為理想。可以看到海南與青海,甯夏自治區,重慶市的能源消耗特點近似,北京、上海兩地能源消耗特點也近似。江浙兩地亦然。

最後廣東和各地能源消耗特點都不同。

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

1.1.3 Ward法聚類

Ward即離差平方和法。它的思想是,同類離差平方和較小,類間偏差平方和較大。Ward方法并類時總是使得并類導緻的類内離差平方和增量最小。公式:

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

遞推公式:

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

我依然貼出ward法聚類表和樹狀圖。

  1. 聚類表如表1-4所示,相關解釋類似于表1-1所述.

     

                                                                        聚類表
群集組合 系數 首次出現階群集 下一階
群集 1 群集 2 群集 1 群集 2
1 21 28 .106 11
2 12 24 .338 5
3 2 27 .584 6
4 13 20 .876 9
5 7 12 1.359 2 12
6 2 14 1.902 3 8
7 17 18 2.582 13
8 2 29 3.351 6 12
9 13 25 4.140 4 14
10 8 26 5.079 16
11 21 22 6.290 1 19
12 2 7 7.647 8 5 14
13 5 17 9.006 7 21
14 2 13 11.211 12 9 19
15 4 16 13.723 23
16 8 30 16.642 10 21
17 10 11 19.865 20
18 1 9 23.996 25
19 2 21 30.556 14 11 24
20 6 10 37.154 17 22
21 5 8 43.898 13 16 24
22 6 15 52.159 20 26
23 3 4 62.103 15 26
24 2 5 73.051 19 21 27
25 1 23 86.143 18 27
26 3 6 106.442 23 22 28
27 1 2 139.001 25 24 29
28 3 19 177.895 26 29
29 1 3 286.000 27 28

表1-4 Ward法聚類表

          2. 樹狀圖如圖1-4所示,我們可以看到這個結果較以上兩種方法都為理想,組内距離都很小,控制在五次疊代之内。然後組間距離非常大。各分類的樣品也基本符合它們的能源消耗特點。最後在接近10次疊代,廣東被歸入山東、山西這兩個分别是能源消耗大省和能源産量大省的一類,說明它們之間的相似度也不大。

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

圖1-4 Ward法聚類樹狀圖

1.2 K-mean聚類

K-mean聚類是使用者指定類别數的大樣本資料的逐漸聚類分析。所謂逐漸聚類分析就是先把被聚對象進行初始分類,然後逐漸調整,得到最終K個分類。 K-mean法對離群點敏感容易扭曲資料分布。

單擊“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

”-->“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

” -->“

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

”将彈出如圖1-5所示的對話框,我們根據系統聚類法的經驗将K選擇為5。疊代次數和系統聚類一樣選擇25次。

SPSS19.0實戰之聚類分析(轉載)2.總結3.參考文獻

圖1-5 K-mean聚類設定

下面輸出和解釋K-mean聚類結果。

  1. 表1-5是K-mean的疊代曆史記錄,非常明了。
                                       疊代曆史記錄a
疊代 聚類中心内的更改
1 2 3 4 5
1 2.796 1.414 1.813 .000 2.299
2 1.014 .000 .990 .000 .000
3 .000 .000 .000 .000 .000
a. 由于聚類中心内沒有改動或改動較小而達到收斂。任何中心的最大絕對坐标更改為 .000。目前疊代為 3。初始中心間的最小距離為 5.209。

                                                      表1-5 疊代曆史記錄

    2.  表1-6是每個聚類樣品數表。就是該次K-mean聚類所形成的類它們的樣品數量。

每個聚類中的案例數
聚類 1 3.000
2 19.000
3 3.000
4 1.000
5 4.000
有效 30.000
缺失 .000

表1-6 聚類樣品數

     3.  表1-7是K-mean聚類的各個類的具體成員。距離代表的是樣品自身和種子點的距離。

                                       聚類成員
案例号 地區名稱 聚類 距離
1 北京市          1 1.489
2 天津市          2 .596
3 河北省          3 2.575
4 山西省          3 1.381
5 内蒙古自治區    2 1.951
6 遼甯省          5 2.299
7 吉林省          2 .646
8 黑龍江省        2 1.785
9 上海市          1 2.506
10 江蘇省          5 1.569
11 浙江省          5 2.034
12 安徽省          2 .850
13 福建省          2 1.096
14 江西省          2 .960
15 山東省          5 2.489
16 河南省          3 1.980
17 湖北省          2 2.096
18 湖南省          2 1.211
19 廣東省          4 .000
20 廣西壯族自治區  2 .926
21 海南省          2 1.905
22 重慶市          2 1.436
23 四川省          1 2.954
24 貴州省          2 .984
25 雲南省          2 1.080
26 陝西省          2 1.007
27 甘肅省          2 .955
28 青海省          2 1.744
29 甯夏回族自治區  2 1.414
30 新疆維吾爾自治區 2 2.503

 表1-7 聚類成員

最後看到分類結果與ward法有所相似,但是組内距離較大。實際效果不如Ward法。而且該方法需要事先設定分類的個數,并不适合沒有先驗知識的條件下的資料聚類。

2.總結

本次實習主要通過一批國内的能源消耗和産量資料,來實作回歸分析和聚類分析。回歸分析得到一個拟合度良好多元線性回歸方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6 。該方程的殘差分析也通過了。聚類分析通過比較三種不同的系統聚類方法,同時還比較了K-mean方法與系統聚類法的不同。在處理該批資料的四種聚類方法中,以ward法最為理想。Ward法所做的聚類得到組間距離最大,組内距離最小。

3.參考文獻

[1] Ronald .E et al.著.周勇等.譯.理工科機率統計.[M].北京:機械工業出版社,2010:311-326.

[2] 袁志發,周靜芋.多元統計分析[M].北京:科學出版社,2003:110-145,241-250.

[3] J. Han and M. Kamber. Datamining: concepts and techniques[M]. Morgan Kaufmann, 2006:251-267.

[4]SPSS for Window:分類分析[EB/OL].

http://www.fjmu.edu.cn/news/spss/doc3/sp10.htm#j1,1999-10/2010-12-25,

1999-10/2010-12-25       

[5] 聚類分析[EB/OL].

http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/sas-5/cluster.html ,

2010-12-26

[6]  張文彤.SPSS 10.0進階教程十二:多元線性回歸與曲線拟合[EB/OL].

http://www.bioon.com/biology/spss/55215.shtml,2004-7-12/2010-12-25

[7] 了空. SPSS中多元回歸分析執行個體(上)[EB/OL] 

http://hi.baidu.com/liaokong/blog/item/abe0be38344e1bc9d562259c.html,

2010-1-11/2010-12-25.

繼續閱讀