天天看点

mahout探索之旅---开篇

零零散散的学习了很多常用算法,也没有系统的总结过一次,有前辈多次指出学习知识要经常注重总结,从总结规律中学习新的知识。接下来两三个月着重总结一下mahout分布式计算算法库框架。数据挖掘算法按功能分四类:分类、聚类、预测、关联(协同过滤)。

聚类:常言道“人以群分、物以类聚”。一个聚类即是一个类物体的集合,集合的个体是相似的,不同聚类中的个体是不相似的。同类事物的距离最短,不同类事物的距离最长。在mahout算法库中有canopy、k-means、mean-shift、hierarchical、spectral、minhash等一些算法;

分类:分类是一种基于训练样本数据区分另外的样本数据标签的过程。mahout算法库中分类模块包含的算法有:logistic Regression、bayesian、SVM、random forests、HMM;

关联:关联在mahout里面也加协同过滤,又称推荐算法。基于两件事件间的关联来探索事件间的相似度,而不去理会他们之间的因果性。在mahout算法库中包含基于项目的协同过滤算法、频繁项集挖掘算法。

在学术应用中,mahout被用于数据分析研究中,在大规模数据分析和数据挖掘中使用hadoop和mapreduce来进行并行计算分析。

我在工作学习中,把主要精力都放在算法应用中,从现有算法中发觉更大的商业利益和有利于国计民生的道路。寒假时期间看涂子沛的著作《大数据》,有很深的感触,感慨之前写博文都是在一板一眼的写教程,后来发现这样不行,没有指导意义。还是得从思想来匡扶教育,泯正人心。

继续阅读