mahout探索之旅---开篇

2023-08-07 15:53:15

零零散散的学习了很多常用算法，也没有系统的总结过一次，有前辈多次指出学习知识要经常注重总结，从总结规律中学习新的知识。接下来两三个月着重总结一下mahout分布式计算算法库框架。数据挖掘算法按功能分四类：分类、聚类、预测、关联(协同过滤)。

聚类：常言道“人以群分、物以类聚”。一个聚类即是一个类物体的集合，集合的个体是相似的，不同聚类中的个体是不相似的。同类事物的距离最短，不同类事物的距离最长。在mahout算法库中有canopy、k-means、mean-shift、hierarchical、spectral、minhash等一些算法；

分类：分类是一种基于训练样本数据区分另外的样本数据标签的过程。mahout算法库中分类模块包含的算法有：logistic Regression、bayesian、SVM、random forests、HMM；

关联：关联在mahout里面也加协同过滤，又称推荐算法。基于两件事件间的关联来探索事件间的相似度，而不去理会他们之间的因果性。在mahout算法库中包含基于项目的协同过滤算法、频繁项集挖掘算法。

在学术应用中，mahout被用于数据分析研究中，在大规模数据分析和数据挖掘中使用hadoop和mapreduce来进行并行计算分析。

我在工作学习中，把主要精力都放在算法应用中，从现有算法中发觉更大的商业利益和有利于国计民生的道路。寒假时期间看涂子沛的著作《大数据》，有很深的感触，感慨之前写博文都是在一板一眼的写教程，后来发现这样不行，没有指导意义。还是得从思想来匡扶教育，泯正人心。

mahout探索之旅---开篇

继续阅读

智能数字图像处理之FastRCNN（pytorch）代码解读之faster_rcnn_framework.py

2020.11.26丨sam转换bam格式报错parse error at line 1解决办法

2020.9.2丨遗传图谱产品类型

2021.3.20丨Cutadapt数据统计脚本

2021.01.07丨使用fastp统计样品质量结果

2021.01.05丨根据基因名称拼接表达量与相关注释

Win10使用HttpWatch9.4兼容性问题的解决方案一、前言二、处理IE使用HttpWatch9.4兼容问题三、解决Firefox使用HttpWatch9.4兼容问题四、结束语

BAT面试——有所触动写在前面offer情况自学之路校招流水账一些不错的面经一些感悟

伪代码和算法理解个人觉得，伪代码不应该是起让人理解的作用，而是起这样一种作用：让一个即使不懂该算法如何实现的人，看到这个伪代码看着打了以后都能实现这个算法。

2019校招农行笔试范围与经验

poj题目详细分类及算法推荐题目

程序员关于提高工作效率

2020.12.30丨随机读取reads使用ncbi在线工具比对nt数据库

开篇叙事我为什么会在这儿

WEB程序员，界面美化是你心中永远的痛吗？