hadoop下mahout bayes（贝叶斯）算法研究（1）

2014-02-08 23:50:00

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率哪个最大，就认为此待分类项属于哪个类别。

这二十个新闻组数据集合是收集大约20,000新闻组文档，均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验，根据机器学习技术。例如文本分类，文本聚集。我们将使用Mahout的Bayes

Classifier创造一个模型，它将一个新文档分类到这20个新闻组集合范例演示

hadoop已经开启

mahout已经安装

下载20news-bydate.tar.gz数据包并解压缩

<a href="http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz">http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz</a>

例如：我已经把数据包放在/root/bayes下了，所以以下的命令都是在这个目录下的

原以为这么20个文件是不可以一起输出的，但事实证明是可以的

<a>mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-train -o /root/bayesoutput/train -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8</a>

上传文件到HDFS

hadoop fs -put /root/bayesoutput/train/ bayes

下面将在hadoop运行4个map reduce工作，为了Train这个分器并且将运行一段时间如果在只有一个节点的机器上

mahout trainclassifier -i /bayes/train/ -o newsmodel -type bayes -ng 3 -source hdfs（由于hadoop集群未开，这条命令暂时没用）

由于案例数据较多，跑了将近30分钟，新的newmodel的大小有300多mb

在input目录运行Test分类器

<a>mahout testclassifier -m newsmodel -d /root/bayesoutput/test/ -type bayes -ng 3 -source hdfs -method mapreduce</a>

hadoop下mahout bayes（贝叶斯）算法研究（1）

继续阅读

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

C++ 第十五周报告1--《冒泡法排序》

ubuntu14.04下安装hbse1.0.1.1

笔试面试题目：滑动窗口(二)

User Defined Hadoop DataType

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希