資料挖掘聚類算法之K-MEDOIDS

2021-11-07 20:05:12

k-means顧名思義k-均值，通過計算一類記錄的均值來代表該類，但是受異常值或極端值的影響比較大，這裡介紹另外一種算法k-medodis。看起來和k-means比較相似，但是k-medoids和k-means是有差別的，不一樣的地方在于中心點的選取，在k-means中，我們将中心點取為目前cluster中所有資料點的平均值，在 k-medoids算法中，我們将從目前cluster 中選取這樣一個點——它到其他所有（目前cluster中的）點的距離之和最小——作為中心點。

k-means算法的缺點：

産生類的大小相差不會很大，對于髒資料很敏感。

改進的算法：k-medoids方法。

這兒選取一個對象叫做mediod來代替上面的中心的作用，這樣的一個medoid就辨別了這個類。

k-medodis的具體流程如下：

1）任意選取k個對象作為medoids（o1,o2,…oi…ok）。　　

2）将餘下的對象分到各個類中去（根據與medoid最相近的原則）；　　

3）對于每個類（oi）中，順序選取一個or，計算用or代替oi後的消耗—e（or）。選擇e最小的那個or來代替oi。這樣k個medoids就改變了。

4）重複2、3步直到k個medoids固定下來。　　

不容易受到那些由于誤差之類的原因産生的髒資料的影響，但計算量顯然要比k-means要大，一般隻适合小資料量。

原文釋出時間為：2013-08-4

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

資料挖掘聚類算法之K-MEDOIDS

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希