使用Orange進行資料挖掘之聚類分析(1)------層次聚類

2023-06-21 16:10:19

一、層次聚類

1 層次聚類的基本概念

層次聚類方法是古老而且常用的聚類方法。層次聚類方法又有兩種産生層次聚類的基本方法。

凝聚的：該方法是自底向上的方法，初始每個對象看做一個簇，每一步合并最相近的簇，最終形成一個簇。
分類的：該方法是自頂向下的方法，從包含的所有點的簇開始，每一步分裂一個簇，知道僅剩下單點的簇。

本文主要關注凝聚的層次聚類方法。

2 簇之間的鄰近性

在凝聚的層次聚類方法中，需要定義簇之間的相近性。有許多凝聚層次的聚類技術，本文中介紹單鍊、全鍊、組平均。

單鍊:

該方法中兩個簇的鄰近度定義為兩個不同簇中任意兩點之間的最短距離。單鍊技術擅長處理非橢圓形的簇，但是對噪音和離群點很敏感。

兩個簇之間的相似度計算公式為：

dist({m1,m2},{m3,m4})=min(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

全鍊:

該方法中兩個簇的鄰近度定義為兩個不同簇中任意兩點之間的最長距離。單鍊技術擅長處理圓形的簇，但是對噪音和離群點不太敏感。

兩個簇之間的相似度計算公式為：

dist({m1,m2},{m3,m4})=max(dist(m1,m3),dist(m1,m4),dist(m2,m3),dist(m2,m4))

組平均:

該方法中兩個簇的鄰近度定義為兩個不同簇中任意兩點之間的平均距離。該方法是位于單鍊和全鍊之間的這種方法。

兩個簇之間的相似度計算公式為：

dist({m1,m2},{m3,m4})=(dist(m1,m3)+dist(m1,m4)+dist(m2,m3)+dist(m2,m4))/4

二、Orange中的層次聚類

使用腳本

以iris資料為例

import Orange
#加載資料
data = Orange.data.Table("iris")
#層次聚類，其中預設采用組平均計算簇之間的相似度
root = Orange.clustering.hierarchical.clustering(data)
labels = [str(d.get_class()) for d in data]
#生成圖像hclust-dendrogram.png
Orange.clustering.hierarchical.dendrogram_draw("hclust-dendrogram.png", root, labels=labels)

生成的圖像如下：

使用Orange進行資料挖掘之聚類分析(1)------層次聚類

使用可視化工具

Orange更強大的部分，還支援用控件的方式來進行資料挖掘，同上例的可視化挖掘方法如下：

使用Orange進行資料挖掘之聚類分析(1)------層次聚類

同樣輸出的結果如下：

使用Orange進行資料挖掘之聚類分析(1)------層次聚類

無論是用代碼，還是用可視化的方式都可以對參數進行精确的控制。

三、參考資料

資料挖掘導論 http://book.douban.com/subject/5377669/

使用Orange進行資料挖掘之聚類分析(1)------層次聚類

一、層次聚類

1 層次聚類的基本概念

2 簇之間的鄰近性

單鍊:

全鍊:

組平均:

二、Orange中的層次聚類

使用腳本

使用可視化工具

三、參考資料

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

計算機開路人阿蘭·圖靈

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

基礎算法之二分查找

人工智能如何有效地運用于自然語言處理

poj3249

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

PAT 1089 Insert or Merge[難]

無人機--飛控科普