天天看點

資料挖掘--kmeans聚類算法mapreduce實作

通過聚類算法可以把相似度高的一類對象歸為一類,進而實作“物以類聚”;我們可以用來對使用者進行聚類分群、節目分組等實際應用。

附件是核心MR的實作和實驗資料。

基本簡介

  k-means 算法接受輸入量 k ;然後将n個資料對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。

編輯本段處理流程

k-means 算法基本步驟

(1) 從 n個資料對象任意選擇 k 個對象作為初始聚類中心;   

(2) 根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分;   

(3) 重新計算每個(有變化)聚類的均值(中心對象);   

(4) 計算标準測度函數,當滿足一定條件,如函數收斂時,則算法終止;如果條件不滿足則回到步驟(2)。

流圖

具體MR實作

繼續閱讀