数据挖掘聚类算法之K-MEDOIDS

2021-11-07 20:05:12

k-means顾名思义k-均值，通过计算一类记录的均值来代表该类，但是受异常值或极端值的影响比较大，这里介绍另外一种算法k-medodis。看起来和k-means比较相似，但是k-medoids和k-means是有区别的，不一样的地方在于中心点的选取，在k-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 k-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cluster中的）点的距离之和最小——作为中心点。

k-means算法的缺点：

产生类的大小相差不会很大，对于脏数据很敏感。

改进的算法：k-medoids方法。

这儿选取一个对象叫做mediod来代替上面的中心的作用，这样的一个medoid就标识了这个类。

k-medodis的具体流程如下：

1）任意选取k个对象作为medoids（o1,o2,…oi…ok）。　　

2）将余下的对象分到各个类中去（根据与medoid最相近的原则）；　　

3）对于每个类（oi）中，顺序选取一个or，计算用or代替oi后的消耗—e（or）。选择e最小的那个or来代替oi。这样k个medoids就改变了。

4）重复2、3步直到k个medoids固定下来。　　

不容易受到那些由于误差之类的原因产生的脏数据的影响，但计算量显然要比k-means要大，一般只适合小数据量。

原文发布时间为：2013-08-4

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“bigdatadigest”微信公众号

数据挖掘聚类算法之K-MEDOIDS

继续阅读

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

C++ 第十五周报告1--《冒泡法排序》

浅谈企业活动中进行数据分析的重要性

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

hdu7108哈希