命令行对应哪个类可以查看源码配置文件
driver.classes.default.props
mahout的api
<a href="https://builds.apache.org/job/mahout-quality/javadoc/" target="_blank">https://builds.apache.org/job/mahout-quality/javadoc/</a>
mahout实战参考博客:
<a href="http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f" target="_blank">http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f</a>
聚类算法
kmeans:无法消除离群点的影响
canopy:两个阈值t1和t2,且t1>t2,简单快速不太准确,可以消除离群点的影响,一般用来决定聚类中心数目k
canopy聚类算法
<a href="http://my.oschina.net/liangtee/blog/125407" target="_blank">http://my.oschina.net/liangtee/blog/125407</a>
mahout canopy算法实战
<a href="http://blog.csdn.net/xyilu/article/details/9631677" target="_blank">http://blog.csdn.net/xyilu/article/details/9631677</a>
分类bayes(训练集,基于概率的)、文本分类算法(监督学习)
朴素贝叶斯分类器两种模型:
多项式模型,以单词打标签,粒度不一样
伯努利模型,以文档打标签
用于新闻分类:体育、娱乐
mahout中提供了一种将指定文件下的文件转换成sequencefile的方式。
mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset utf-8
二进制文件转换为向量
mahout seq2sparse
<a href="http://f.dataguru.cn/thread-244375-1-1.html" target="_blank">f.dataguru.cn/thread-244375-1-1.html</a>
<a href="http://www.cnblogs.com/panweishadow/p/4320720.html" target="_blank">http://www.cnblogs.com/panweishadow/p/4320720.html</a>
低版本中还是老的贝叶斯testclassifier
0.11已经是新贝叶斯
#classification
#new bayes
org.apache.mahout.classifier.naivebayes.training.trainnaivebayesjob = trainnb : train the vector-based bayes classifier
org.apache.mahout.classifier.naivebayes.test.testnaivebayesdriver = testnb : test the vector-based bayes classifier
cbayes=complementarynaivebayes
testnaivebayesdriver源码
bayestestmapper源码