天天看点

mahout 0.8入门mahout-distribution-0.8完成朴素贝叶斯分类(中文分词)

命令行对应哪个类可以查看源码配置文件

driver.classes.default.props

mahout的api

<a href="https://builds.apache.org/job/mahout-quality/javadoc/" target="_blank">https://builds.apache.org/job/mahout-quality/javadoc/</a>

mahout实战参考博客:

<a href="http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f" target="_blank">http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f</a>

聚类算法

kmeans:无法消除离群点的影响

canopy:两个阈值t1和t2,且t1&gt;t2,简单快速不太准确,可以消除离群点的影响,一般用来决定聚类中心数目k

canopy聚类算法

<a href="http://my.oschina.net/liangtee/blog/125407" target="_blank">http://my.oschina.net/liangtee/blog/125407</a>

mahout canopy算法实战

<a href="http://blog.csdn.net/xyilu/article/details/9631677" target="_blank">http://blog.csdn.net/xyilu/article/details/9631677</a>

分类bayes(训练集,基于概率的)、文本分类算法(监督学习)

朴素贝叶斯分类器两种模型:

多项式模型,以单词打标签,粒度不一样

伯努利模型,以文档打标签

用于新闻分类:体育、娱乐

mahout中提供了一种将指定文件下的文件转换成sequencefile的方式。

mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset utf-8

二进制文件转换为向量

mahout seq2sparse

<a href="http://f.dataguru.cn/thread-244375-1-1.html" target="_blank">f.dataguru.cn/thread-244375-1-1.html</a>

<a href="http://www.cnblogs.com/panweishadow/p/4320720.html" target="_blank">http://www.cnblogs.com/panweishadow/p/4320720.html</a>

低版本中还是老的贝叶斯testclassifier

0.11已经是新贝叶斯

#classification

#new bayes

org.apache.mahout.classifier.naivebayes.training.trainnaivebayesjob = trainnb : train the vector-based bayes classifier

org.apache.mahout.classifier.naivebayes.test.testnaivebayesdriver = testnb : test the vector-based bayes classifier

cbayes=complementarynaivebayes

testnaivebayesdriver源码

 bayestestmapper源码