本文轉載自: https://www.cnblogs.com/luowende2012/archive/2012/04/27/2473225.html 作者:dekevin 轉載請注明該聲明。
聚類分析是将實體或者抽象對象的集合分成相似的對象類的過程。本次實驗我将對同一批資料做兩種不同的類型的聚類;它們分别是系統聚類和K-mean聚類。其中系統聚類的聚類方法也采用3種不同方法,來考察對比它們之間的優劣。由于沒有樣本資料,是以不能根據其資料做判别分析。評價标準主要是觀察各聚類方法的所得到的類組間距離群組内聚類的大小。
分析資料依然采用線性回歸所使用的标準化後的能源消費資料。
1.1 系統聚類
本次實驗的系統聚類都是凝聚系統聚類,為了控制變量,都采用平方Euclidean距離。
1.1.1 最短距離聚類法
最短距離法聚類步驟如下:
- 規定樣本間的距離,計算樣本兩兩之間的距離,得到對稱矩陣。開始每個樣品自成一類。
- 選擇對稱矩陣中的最小非零元素。将兩個樣品之間最小距離記為D1,将這兩個樣品歸并成為一類,記為G1。
- 計算G1與其他樣品距離。重複以上過程直到所有樣品合并為一類。
我們在SPSS中實作最短距離分析非常簡單。單擊“
”-->“
” -->“
”。将彈出如圖1-1所示的對話框,設定相應的參數即可。
圖1-1 最短距離法
我們的資料已經做過标準化,在“轉化值”-->“标準化”選項上選無。
在統計量的聚類成員中選擇“無”,因為這是非監督分類,不需要指定最終分出的類個數。在繪制中選擇繪制“樹狀圖”。單擊确定,得到以下結果。
- 表3-1顯示了資料的缺失情況:
表1-1 資料彙總
我們的資料經過預處理,是以缺失值個數為0.
2. 由于相關矩陣過于龐大,無法在文檔中貼出,得到的是一個非相似矩陣。表1-2是樣品聚類過程。樣品21和28在第一步合并為一類,它們之間的非相關系數最小,為0.211。在下一次合并是第十步。在第五步的時候,樣品2、27、14組成一類,出現群集,樣品個數為3。如上類推,可以解釋表格。
聚類表 | ||||||
階 | 群集組合 | 系數 | 首次出現階群集 | 下一階 | ||
群集 1 | 群集 2 | 群集 1 | 群集 2 | |||
1 | 21 | 28 | .211 | 10 | ||
2 | 12 | 24 | .465 | 6 | ||
3 | 2 | 27 | .491 | 5 | ||
4 | 13 | 20 | .585 | 9 | ||
5 | 2 | 14 | .645 | 3 | 6 | |
6 | 2 | 12 | .678 | 5 | 2 | 7 |
7 | 2 | 7 | .702 | 6 | 8 | |
8 | 2 | 25 | .773 | 7 | 9 | |
9 | 2 | 13 | .916 | 8 | 4 | 11 |
10 | 21 | 29 | 1.085 | 1 | 12 | |
11 | 2 | 18 | 1.106 | 9 | 12 | |
12 | 2 | 21 | 1.115 | 11 | 10 | 13 |
13 | 2 | 17 | 1.360 | 12 | 14 | |
14 | 2 | 26 | 1.564 | 13 | 15 | |
15 | 2 | 22 | 1.627 | 14 | 16 | |
16 | 2 | 5 | 1.649 | 15 | 17 | |
17 | 2 | 8 | 1.877 | 16 | 18 | |
18 | 2 | 16 | 3.027 | 17 | 19 | |
19 | 2 | 30 | 3.543 | 18 | 20 | |
20 | 2 | 11 | 4.930 | 19 | 21 | |
21 | 2 | 4 | 5.024 | 20 | 22 | |
22 | 2 | 10 | 6.445 | 21 | 24 | |
23 | 1 | 9 | 8.262 | 26 | ||
24 | 2 | 15 | 10.093 | 22 | 25 | |
25 | 2 | 23 | 10.096 | 24 | 26 | |
26 | 1 | 2 | 10.189 | 23 | 25 | 27 |
27 | 1 | 6 | 11.387 | 26 | 28 | |
28 | 1 | 3 | 13.153 | 27 | 29 | |
29 | 1 | 19 | 32.367 | 28 |
表1-2 聚類過程
我們可以通過更加形象直覺的樹狀圖來觀察整個聚類過程和聚類效果。如圖1-2所示,最短距離法組内距離小,但組間距離也較小。分類特征不夠明顯,無法凸顯各個省份的能源消耗的特點。但是我們可以看到廣東省能源消耗組成和其他省份特别不同,在其他方法中也顯現出來。
圖1-2 最短距離法聚類圖
1.1.2 組間聯接聚類
組間聯接聚類法定義為兩類之間的平均平方距離,即
。類CK和CL 合并為下一步的CM 則CM 與CJ距離的遞推公式為:
。
我們依然貼出組間聯接法的聚類表和樹狀圖。
- 聚類表如表1-3所示,相關解釋類似于表1-1所述。
聚類表 | ||||||
階 | 群集組合 | 系數 | 首次出現階群集 | 下一階 | ||
群集 1 | 群集 2 | 群集 1 | 群集 2 | |||
1 | 21 | 28 | .211 | 10 | ||
2 | 12 | 24 | .465 | 5 | ||
3 | 2 | 27 | .491 | 6 | ||
4 | 13 | 20 | .585 | 8 | ||
5 | 7 | 12 | .840 | 2 | 7 | |
6 | 2 | 14 | .937 | 3 | 7 | |
7 | 2 | 7 | 1.105 | 6 | 5 | 11 |
8 | 13 | 25 | 1.331 | 4 | 11 | |
9 | 17 | 18 | 1.360 | 14 | ||
10 | 21 | 29 | 1.495 | 1 | 13 | |
11 | 2 | 13 | 1.703 | 7 | 8 | 15 |
12 | 8 | 26 | 1.877 | 15 | ||
13 | 21 | 22 | 2.133 | 10 | 18 | |
14 | 5 | 17 | 2.378 | 9 | 16 | |
15 | 2 | 8 | 3.715 | 11 | 12 | 16 |
16 | 2 | 5 | 3.926 | 15 | 14 | 18 |
17 | 4 | 16 | 5.024 | 23 | ||
18 | 2 | 21 | 5.526 | 16 | 13 | 21 |
19 | 10 | 11 | 6.445 | 22 | ||
20 | 1 | 9 | 8.262 | 25 | ||
21 | 2 | 30 | 8.744 | 18 | 23 | |
22 | 6 | 10 | 11.508 | 19 | 24 | |
23 | 2 | 4 | 14.202 | 21 | 17 | 25 |
24 | 6 | 15 | 14.288 | 22 | 27 | |
25 | 1 | 2 | 19.822 | 20 | 23 | 26 |
26 | 1 | 23 | 23.363 | 25 | 28 | |
27 | 3 | 6 | 26.516 | 24 | 28 | |
28 | 1 | 3 | 31.210 | 26 | 27 | 29 |
29 | 1 | 19 | 69.114 | 28 |
表1-2 組間聯接聚類法
2. 樹狀圖如圖1-3所示,可以看到聚類的組間距離較大,組内距離較小。聚類結果較為理想。可以看到海南與青海,甯夏自治區,重慶市的能源消耗特點近似,北京、上海兩地能源消耗特點也近似。江浙兩地亦然。
最後廣東和各地能源消耗特點都不同。
1.1.3 Ward法聚類
Ward即離差平方和法。它的思想是,同類離差平方和較小,類間偏差平方和較大。Ward方法并類時總是使得并類導緻的類内離差平方和增量最小。公式:
遞推公式:
我依然貼出ward法聚類表和樹狀圖。
- 聚類表如表1-4所示,相關解釋類似于表1-1所述.
聚類表 | ||||||
階 | 群集組合 | 系數 | 首次出現階群集 | 下一階 | ||
群集 1 | 群集 2 | 群集 1 | 群集 2 | |||
1 | 21 | 28 | .106 | 11 | ||
2 | 12 | 24 | .338 | 5 | ||
3 | 2 | 27 | .584 | 6 | ||
4 | 13 | 20 | .876 | 9 | ||
5 | 7 | 12 | 1.359 | 2 | 12 | |
6 | 2 | 14 | 1.902 | 3 | 8 | |
7 | 17 | 18 | 2.582 | 13 | ||
8 | 2 | 29 | 3.351 | 6 | 12 | |
9 | 13 | 25 | 4.140 | 4 | 14 | |
10 | 8 | 26 | 5.079 | 16 | ||
11 | 21 | 22 | 6.290 | 1 | 19 | |
12 | 2 | 7 | 7.647 | 8 | 5 | 14 |
13 | 5 | 17 | 9.006 | 7 | 21 | |
14 | 2 | 13 | 11.211 | 12 | 9 | 19 |
15 | 4 | 16 | 13.723 | 23 | ||
16 | 8 | 30 | 16.642 | 10 | 21 | |
17 | 10 | 11 | 19.865 | 20 | ||
18 | 1 | 9 | 23.996 | 25 | ||
19 | 2 | 21 | 30.556 | 14 | 11 | 24 |
20 | 6 | 10 | 37.154 | 17 | 22 | |
21 | 5 | 8 | 43.898 | 13 | 16 | 24 |
22 | 6 | 15 | 52.159 | 20 | 26 | |
23 | 3 | 4 | 62.103 | 15 | 26 | |
24 | 2 | 5 | 73.051 | 19 | 21 | 27 |
25 | 1 | 23 | 86.143 | 18 | 27 | |
26 | 3 | 6 | 106.442 | 23 | 22 | 28 |
27 | 1 | 2 | 139.001 | 25 | 24 | 29 |
28 | 3 | 19 | 177.895 | 26 | 29 | |
29 | 1 | 3 | 286.000 | 27 | 28 |
表1-4 Ward法聚類表
2. 樹狀圖如圖1-4所示,我們可以看到這個結果較以上兩種方法都為理想,組内距離都很小,控制在五次疊代之内。然後組間距離非常大。各分類的樣品也基本符合它們的能源消耗特點。最後在接近10次疊代,廣東被歸入山東、山西這兩個分别是能源消耗大省和能源産量大省的一類,說明它們之間的相似度也不大。
圖1-4 Ward法聚類樹狀圖
1.2 K-mean聚類
K-mean聚類是使用者指定類别數的大樣本資料的逐漸聚類分析。所謂逐漸聚類分析就是先把被聚對象進行初始分類,然後逐漸調整,得到最終K個分類。 K-mean法對離群點敏感容易扭曲資料分布。
單擊“
”-->“
” -->“
”将彈出如圖1-5所示的對話框,我們根據系統聚類法的經驗将K選擇為5。疊代次數和系統聚類一樣選擇25次。
圖1-5 K-mean聚類設定
下面輸出和解釋K-mean聚類結果。
- 表1-5是K-mean的疊代曆史記錄,非常明了。
疊代曆史記錄a | |||||
疊代 | 聚類中心内的更改 | ||||
1 | 2 | 3 | 4 | 5 | |
1 | 2.796 | 1.414 | 1.813 | .000 | 2.299 |
2 | 1.014 | .000 | .990 | .000 | .000 |
3 | .000 | .000 | .000 | .000 | .000 |
a. 由于聚類中心内沒有改動或改動較小而達到收斂。任何中心的最大絕對坐标更改為 .000。目前疊代為 3。初始中心間的最小距離為 5.209。 |
表1-5 疊代曆史記錄
2. 表1-6是每個聚類樣品數表。就是該次K-mean聚類所形成的類它們的樣品數量。
每個聚類中的案例數 | ||
聚類 | 1 | 3.000 |
2 | 19.000 | |
3 | 3.000 | |
4 | 1.000 | |
5 | 4.000 | |
有效 | 30.000 | |
缺失 | .000 |
表1-6 聚類樣品數
3. 表1-7是K-mean聚類的各個類的具體成員。距離代表的是樣品自身和種子點的距離。
聚類成員 | |||
案例号 | 地區名稱 | 聚類 | 距離 |
1 | 北京市 | 1 | 1.489 |
2 | 天津市 | 2 | .596 |
3 | 河北省 | 3 | 2.575 |
4 | 山西省 | 3 | 1.381 |
5 | 内蒙古自治區 | 2 | 1.951 |
6 | 遼甯省 | 5 | 2.299 |
7 | 吉林省 | 2 | .646 |
8 | 黑龍江省 | 2 | 1.785 |
9 | 上海市 | 1 | 2.506 |
10 | 江蘇省 | 5 | 1.569 |
11 | 浙江省 | 5 | 2.034 |
12 | 安徽省 | 2 | .850 |
13 | 福建省 | 2 | 1.096 |
14 | 江西省 | 2 | .960 |
15 | 山東省 | 5 | 2.489 |
16 | 河南省 | 3 | 1.980 |
17 | 湖北省 | 2 | 2.096 |
18 | 湖南省 | 2 | 1.211 |
19 | 廣東省 | 4 | .000 |
20 | 廣西壯族自治區 | 2 | .926 |
21 | 海南省 | 2 | 1.905 |
22 | 重慶市 | 2 | 1.436 |
23 | 四川省 | 1 | 2.954 |
24 | 貴州省 | 2 | .984 |
25 | 雲南省 | 2 | 1.080 |
26 | 陝西省 | 2 | 1.007 |
27 | 甘肅省 | 2 | .955 |
28 | 青海省 | 2 | 1.744 |
29 | 甯夏回族自治區 | 2 | 1.414 |
30 | 新疆維吾爾自治區 | 2 | 2.503 |
表1-7 聚類成員
最後看到分類結果與ward法有所相似,但是組内距離較大。實際效果不如Ward法。而且該方法需要事先設定分類的個數,并不适合沒有先驗知識的條件下的資料聚類。
2.總結
本次實習主要通過一批國内的能源消耗和産量資料,來實作回歸分析和聚類分析。回歸分析得到一個拟合度良好多元線性回歸方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6 。該方程的殘差分析也通過了。聚類分析通過比較三種不同的系統聚類方法,同時還比較了K-mean方法與系統聚類法的不同。在處理該批資料的四種聚類方法中,以ward法最為理想。Ward法所做的聚類得到組間距離最大,組内距離最小。
3.參考文獻
[1] Ronald .E et al.著.周勇等.譯.理工科機率統計.[M].北京:機械工業出版社,2010:311-326.
[2] 袁志發,周靜芋.多元統計分析[M].北京:科學出版社,2003:110-145,241-250.
[3] J. Han and M. Kamber. Datamining: concepts and techniques[M]. Morgan Kaufmann, 2006:251-267.
[4]SPSS for Window:分類分析[EB/OL].
http://www.fjmu.edu.cn/news/spss/doc3/sp10.htm#j1,1999-10/2010-12-25,
1999-10/2010-12-25
[5] 聚類分析[EB/OL].
http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/sas-5/cluster.html ,
2010-12-26
[6] 張文彤.SPSS 10.0進階教程十二:多元線性回歸與曲線拟合[EB/OL].
http://www.bioon.com/biology/spss/55215.shtml,2004-7-12/2010-12-25
[7] 了空. SPSS中多元回歸分析執行個體(上)[EB/OL]
http://hi.baidu.com/liaokong/blog/item/abe0be38344e1bc9d562259c.html,
2010-1-11/2010-12-25.