Mahout駕馭hadoop之詳解

2021-11-06 22:13:37

衆所周知,mahout是基于hadoop分布式系統的,要想看懂mahout的源碼,首先得明白mahout是如何使用hadoop的!

首先,在我的<<hadoop運作原理詳解>>一篇中,詳細介紹了hadoop的運作機制,這裡就不多說了!下面我就以kmeans聚類算法為例,講講mahout如何利用hadoop實作資料挖掘算法并行化.如以下類圖所示,

該圖描述了整個mahout實作kmeans算法的架構圖,首先kmeanscluster繼承cluster,在kmeanscluster中有幾個比較重要的方法,首先clusterpoints()是實作kmeans聚類算法的方法,而其中調用了runkmeansiteration()方法,該方法是單次聚類疊代方法.

尤其可見,這塊算法實作和普通kmeans算法沒有太大差别!在mahout針對每個算法都有一個driver,這個東西是幹什麼的啊?

我們先看看kmeansdriver源碼,kmeansdriver繼承了abstractjob.我們知道hadoop上的任務都是以job的形式啟動的!我們要使用某個算法進行一項資料挖掘工作,是以就要啟動一個job.是以,kmeansdriver就是建立一個job,然後對job的屬性進行配置,然後運作該job.

上圖反映了kmeansdriver工作原理.

Mahout駕馭hadoop之詳解

繼續閱讀

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

C++ 第十五周報告1--《冒泡法排序》

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希