資料挖掘--kmeans聚類算法mapreduce實作

2023-07-05 05:11:31

通過聚類算法可以把相似度高的一類對象歸為一類，進而實作“物以類聚”；我們可以用來對使用者進行聚類分群、節目分組等實際應用。

附件是核心MR的實作和實驗資料。

基本簡介

　　k-means 算法接受輸入量 k ；然後将n個資料對象劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”（引力中心）來進行計算的。

編輯本段處理流程

k-means 算法基本步驟

（1）從 n個資料對象任意選擇 k 個對象作為初始聚類中心；　　

（2）根據每個聚類對象的均值（中心對象），計算每個對象與這些中心對象的距離；并根據最小距離重新對相應對象進行劃分；　　

（3）重新計算每個（有變化）聚類的均值（中心對象）；　　

（4）計算标準測度函數，當滿足一定條件，如函數收斂時，則算法終止；如果條件不滿足則回到步驟（2）。

流圖

具體MR實作

繼續閱讀