指令行對應哪個類可以檢視源碼配置檔案
driver.classes.default.props
mahout的api
<a href="https://builds.apache.org/job/mahout-quality/javadoc/" target="_blank">https://builds.apache.org/job/mahout-quality/javadoc/</a>
mahout實戰參考部落格:
<a href="http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f" target="_blank">http://itindex.net/detail/45259-mahout-%e7%94%b5%e5%bd%b1-%e6%8e%a8%e8%8d%90%e7%b3%bb%e7%bb%9f</a>
聚類算法
kmeans:無法消除離群點的影響
canopy:兩個門檻值t1和t2,且t1>t2,簡單快速不太準确,可以消除離群點的影響,一般用來決定聚類中心數目k
canopy聚類算法
<a href="http://my.oschina.net/liangtee/blog/125407" target="_blank">http://my.oschina.net/liangtee/blog/125407</a>
mahout canopy算法實戰
<a href="http://blog.csdn.net/xyilu/article/details/9631677" target="_blank">http://blog.csdn.net/xyilu/article/details/9631677</a>
分類bayes(訓練集,基于機率的)、文本分類算法(監督學習)
樸素貝葉斯分類器兩種模型:
多項式模型,以單詞打标簽,粒度不一樣
伯努利模型,以文檔打标簽
用于新聞分類:體育、娛樂
mahout中提供了一種将指定檔案下的檔案轉換成sequencefile的方式。
mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset utf-8
二進制檔案轉換為向量
mahout seq2sparse
<a href="http://f.dataguru.cn/thread-244375-1-1.html" target="_blank">f.dataguru.cn/thread-244375-1-1.html</a>
<a href="http://www.cnblogs.com/panweishadow/p/4320720.html" target="_blank">http://www.cnblogs.com/panweishadow/p/4320720.html</a>
低版本中還是老的貝葉斯testclassifier
0.11已經是新貝葉斯
#classification
#new bayes
org.apache.mahout.classifier.naivebayes.training.trainnaivebayesjob = trainnb : train the vector-based bayes classifier
org.apache.mahout.classifier.naivebayes.test.testnaivebayesdriver = testnb : test the vector-based bayes classifier
cbayes=complementarynaivebayes
testnaivebayesdriver源碼
bayestestmapper源碼