內建聚類之EAC方法

2023-03-20 08:18:28

剛看完一篇內建聚類的文章：

Combining Multiple Clusterings Using Evidence Accumulation（EAC）

做個簡單的筆記，友善複習。

和一般的內建聚類不同，EAC并不直接組合不同的劃分，而是由這些不同的劃分得到一個鄰近度矩陣（proximity matrix），之後便可在這個鄰近度矩陣上運用層次聚類中的單連接配接（single link)或平均連接配接(average link)算法得到最終的劃分。

（單連接配接算法：http://blog.csdn.net/tyh70537/article/details/76768802）

首先要想的到不同的劃分（partition）有以下方法：

1，使用不同的聚類算法

2，使用相同的算法，但進行不同的初始化或使用不同的參數

3，使用不同的特征空間

假設資料集 X 包含n個樣本，X={x1,x2,⋯,xn}。現有m種不同的劃分，劃分集合 P={P1,P2,⋯,Pm} ，注意EAC并不限制每種劃分中的簇的個數。EAC算法建構一個n*n的鄰近度矩陣D， Nij=Nji 表示樣本i和樣本j在m種劃分中屬于同一個簇的次數。則矩陣D的元素 Dij=Nij/m ，在D的基礎上營運單連接配接算法，得到最終的劃分。

相比一般層次聚類中使用的鄰近度矩陣，

EAC方法內建不同的劃分建構新的鄰近度矩陣，新的鄰近度矩陣相比直接使用原始資料建構的鄰近度矩陣，更能反應樣本之間的關系。

下面幾張圖說明用EAC內建k-means和單一的k-means算法的不同效果：

原始資料的分布情況如下：

內建聚類之EAC方法

使用單個k-means算法（k=25）:

內建聚類之EAC方法

使用單個k-means算法（k=11）：

內建聚類之EAC方法

EAC法（內建了30個k-means劃分，每種劃分的簇的數量k随機從區間 [10,30] 裡選擇）：

內建聚類之EAC方法

可以看出，內建後的k-means算法可以識别複雜的結構。

內建聚類之EAC方法

繼續閱讀

【機器學習】聚類 Kmeans &DBSCAN

【機器學習算法基礎】常用聚類算法

資料挖掘-目錄-聚類（clustering）

資料挖掘——傳統聚類算法基礎知識筆記1.聚類算法的分類2.聚類相似性計算3.經典聚類方法4.小結

文本挖掘之聚類算法之CLARANS（基于随機選擇的聚類算法）

【聚類算法】層次聚類算法定義樣例算法總結

随機分布式延遲PSO（RODDPSO）+K-Means算法（Python代碼實作）

Python機器學習之k-means聚類算法1 引言2 K-Means3 K值确定4 代碼實作5 總結6 參考

機器學習——聚類算法k-means機器學習——聚類算法k-means聚類分析概述一、k-means背景？二、k-means算法思想k-means總結

蟻群聚類算法

斯坦福NG機器學習：K-means筆記K-means 聚類算法：

scikit-learn之聚類算法之Mean Shift

Gaussian discriminant analysis and Gaussian Mixture Model

拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

分類模型——系統聚類（一）

圖神經網絡中可能用到的11種距離, 小結