天天看点

数据挖掘-聚类分析

作者:数据分析君

聚类分析,也称为聚类,是一种将相似数据点分组在一起的数据挖掘方法。聚类分析的目标是将数据集划分为组(或聚类),以便每个组内的数据点彼此之间比其他组中的数据点更相似。此过程通常用于探索性数据分析,可以帮助识别数据中的模式或关系,这些模式或关系可能不是立即明显的。有许多不同的算法用于聚类分析,如k-means、分层聚类和基于密度的聚类。算法的选择将取决于分析的具体要求和所分析数据的性质。

CPDA数据分析师课程中,已经对聚类分析进行了详细的教学,如有希望了解, 可以参考CPDA教材的课程。

数据挖掘-聚类分析

聚类分析是寻找相似的对象组以形成聚类的过程。它是一种基于无监督机器学习的算法,作用于未标记的数据。一组数据点将组合在一起形成一个集群,其中所有对象将属于同一组。

通过将相似的对象组合成一个组,将给定的数据分成不同的组。这个群体只是一个集群。一个簇只不过是一组相似数据的集合。

例如,考虑一个给定的车辆数据集,其中包含不同车辆的信息,如汽车、公共汽车、自行车等。由于这是一种无监督学习,所以所有的车辆都没有像汽车、自行车等这样的类别标签,所有的数据都是组合在一起的,而不是以结构化的方式。

现在我们的任务是将未标记的数据转换为标记的数据,这可以使用集群来完成。

聚类分析的主要思想是通过形成聚类来排列所有的数据点,比如汽车聚类包含所有的汽车,自行车聚类包含所有的自行车,等等。

简单地说,它是应用于未标记数据的相似对象的分区。

聚类的性质:

1. 集群的可伸缩性:现在有大量的数据,应该处理巨大的数据库。为了处理大量的数据库,聚类算法应该是可伸缩的。数据应该是可伸缩的,如果它不能伸缩,那么我们就不能得到合适的结果,从而导致错误的结果。

2. 高维:算法应该能够处理高维空间和小尺寸的数据。

3.多数据类型的算法可用性:聚类算法可以使用不同类型的数据。它应该能够处理不同类型的数据,如离散、分类和基于区间的数据,二进制数据等。

4. 处理非结构化数据:有些数据库可能包含缺失值、有噪声或错误的数据。如果算法对此类数据敏感,则可能导致质量较差的聚类。因此,它应该能够处理非结构化数据,并通过将数据组织成相似的数据对象组来为数据提供一些结构。这使得数据专家的工作更容易处理数据并发现新模式。

5. 可解释性:聚类结果应该是可解释、可理解和可用的。可解释性反映了数据理解的难易程度。

聚类方法:

聚类方法可以分为以下几类:

分区方法

分层方法

Density-based方法

基于网格的方法

基于模型的方法

基于约束的方法

分区法:对数据进行分区,形成集群。如果在数据库的“p”个对象上做了“n”个分区,那么每个分区都用一个集群表示,并且n < p。这种Partitioning Clustering Method需要满足的两个条件是:

一个目标只能属于一个群体。

不应该有一个没有单一目的的团体。

在分区方法中,有一种称为迭代重定位的技术,这意味着对象将从一个组移动到另一个组,以改进分区

分层方法:在这种方法中,将创建给定数据对象集的分层分解。我们可以对分层方法进行分类,根据分层分解是如何形成的,就可以知道分类的目的。有两种类型的方法用于创建层次分解,它们是:

凝聚方法:凝聚方法也被称为自下而上的方法。最初,给定的数据被分成不同的组。此后,它继续合并彼此接近的物体或组,这意味着它们表现出相似的性质。这个合并过程一直持续到终止条件成立为止。

分裂方法:分裂方法也被称为自上而下的方法。在这种方法中,我们将从同一集群中的数据对象开始。通过不断迭代,将单个聚类组划分为小聚类。迭代将继续进行,直到满足终止条件或直到每个集群包含一个对象。

一旦组被分裂或合并,它就永远不能被撤消,因为它是一个刚性的方法,不那么灵活。在数据挖掘中提高层次聚类质量的方法有两种:-

在层次聚类的每个分区中,都应该仔细分析对象之间的联系。

可以使用层次聚类算法对层次聚类进行积分。在这种方法中,首先,将对象分组为微集群。将数据对象划分为微集群后,在微集群上进行宏聚类。

基于密度的方法:基于密度的方法主要关注密度。在这种方法中,只要邻域的密度超过某个阈值,即给定聚类中的每个数据点,给定的聚类就会持续增长。给定集群的半径必须包含至少最小数量的点。

基于网格的方法:在基于网格的方法中,一个网格是使用对象一起形成的。E,对象空间被量化为有限数量的细胞,形成网格结构。基于网格的方法的一个主要优点是处理时间快,它只依赖于量化空间中每个维度的单元数。这种方法的处理时间要快得多,因此可以节省时间。

基于模型的方法:在基于模型的方法中,为了找到最适合模型的数据,对所有的聚类进行假设。密度函数的聚类用于确定给定模型的聚类位置。它反映了数据点的空间分布,还提供了一种基于标准统计数据自动确定聚类数量的方法,同时考虑了离群值或噪声。因此,它产生了稳健的聚类方法。

基于约束的方法:基于约束的聚类方法通过合并应用程序或面向用户的约束来执行。约束是指用户期望或期望的聚类结果的属性。约束为我们提供了一种与聚类过程进行交互的通信方式。用户或应用程序需求可以指定约束。

聚类分析的应用:

它广泛应用于图像处理、数据分析和模式识别。

它帮助营销人员找到客户基础中的不同群体,他们可以通过使用购买模式来描述他们的客户群体。

它可以用于生物学领域,通过衍生动物和植物分类和识别具有相同功能的基因。

它还通过对web上的文档进行分类来帮助信息发现。

聚类分析的优点:

它可以帮助识别数据集中可能不太明显的模式和关系。

它可以用于探索性数据分析,并可以帮助进行特征选择。

它可以用来降低数据的维数。

它可用于异常检测和异常值识别。

它可以用于市场细分和客户分析。

聚类分析的缺点:

它可以对初始条件的选择和簇的数量敏感。

它可以对数据中的噪声或异常值敏感。

如果群集定义不明确,则很难解释分析结果。

对于大型数据集,它的计算成本很高。

所使用的聚类算法的选择会影响分析的结果。

需要注意的是,聚类分析的成功取决于数据、分析的目标和分析人员解释结果的能力。

继续阅读