天天看点

使用证据积累进行聚类算法集成摘要2. 问题表述

目录

  • 摘要
  • 2. 问题表述

参考论文:《Combining Multiple Clusterings Using Evidence Accumulation》

摘要

证据集成算法 evidence accumulation(EAC),将多个聚类结果集成到一起。首先,生成一个聚类集合——一组对象分区。给定一个数据集( n n n 个样本 d d d 个维度),用不同的方式去生成数据分类,比如方式1)使用不同的聚类算法去计算 2)用同一种聚类算法,但给算法选择不同的参数。

此外,不同数据表示(特征空间)和聚类算法的组合也可以提供大量不同的数据分区。考虑到聚类集成中的各种分区,我们提出了一个简单的框架来提取一致的聚类。

通过 EAC 的概念,每一个分区都被认为是数据组织的一个独立证据,基于投票机制将各个数据分区组合在一起,以在 n n n 个样本之间生成一个 n × n n\times n n×n 的相似矩阵。在这个相似矩阵上,通过层次聚类算法,最终将获得 n n n 个样本的数据划分结果。

基于数据分区之间的互信息概念,我们开发了一个理论框架,用于分析所提出的聚类组合策略及其评估。用自举技术评估结果的稳定性。详细讨论了基于证据积累的聚类算法,该算法使用基于 K-means 聚类算法的拆分和合并策略。

将所提出的方法在几个合成和真实数据集上的实验结果与其他组合策略进行比较,并与众所周知的聚类算法产生的单个聚类结果进行比较。

2. 问题表述

使得 X = { x 1 , x 2 , ⋯   , x n } X=\{x_1,x_2,\cdots ,x_n\} X={x1​,x2​,⋯,xn​}是 n n n 个对象的集合,而且让 χ = { x 1 , x 2 , ⋯   , x n } \chi=\{x_1,x_2,\cdots,x_n\} χ={x1​,x2​,⋯,xn​} 成为这些模式的代表; x i x_i xi​ 被定义为,例如,