天天看點

你知道嗎?常用的資料挖掘分析工具Mahout和MLlib

傳統的資料挖掘軟體

專用挖掘工具、通用挖掘工具

–QUEST

–MineSet

–DBMiner

–Intelligent Miner

–SAS Enterprise Miner

–SPSS Modeler

大資料挖掘工具Mahout

Mahout 是Apache Software Foundation (ASF) 開發的一個開源項目

–目标是建立一些可伸縮的資料挖掘算法,供開發人員在Apache 在許可下免費使用。

–Mahout 包含許多實作,包括叢集、分類、CF 和進化程式。

–此外,通過使用Apache Hadoop庫,Mahout 可以有效地擴充到雲中。

你知道嗎?常用的資料挖掘分析工具Mahout和MLlib

Mahout的意思是大象的飼養者及驅趕者。

–Mahout 這個名稱來源于Hadoop徽标上的大象

–Mahout利用Hadoop來實作可伸縮性和容錯性。

Mahout與Hadoop家族其他主要成員關系

你知道嗎?常用的資料挖掘分析工具Mahout和MLlib

大資料挖掘工具MLlib

MLlib是建構在Spark上的分布式資料挖掘工具,利用Spark的記憶體計算,和适合疊代型計算的優勢,使性能大幅度提升。

•同時Spark算子豐富的表現力,讓大規模資料挖掘的算法開發不再複雜

•MLlib作為Spark其中一部分,目前已經完全包含入Spark中。

你知道嗎?常用的資料挖掘分析工具Mahout和MLlib

資料挖掘架構(Spark MLlib)

•MLlib是Spark對常用的資料挖掘算法的實作庫,同時包括相關的測試和資料生成器:

•MLlib目前支援多種常見的資料挖掘問題:

–二進制分類、回歸、聚類以及協同過濾,同時也包括一個底層的梯度下降優化基礎算法。

繼續閱讀