天天看點

mahout探索之旅---開篇

零零散散的學習了很多常用算法,也沒有系統的總結過一次,有前輩多次指出學習知識要經常注重總結,從總結規律中學習新的知識。接下來兩三個月着重總結一下mahout分布式計算算法庫架構。資料挖掘算法按功能分四類:分類、聚類、預測、關聯(協同過濾)。

聚類:常言道“人以群分、物以類聚”。一個聚類即是一個類物體的集合,集合的個體是相似的,不同聚類中的個體是不相似的。同類事物的距離最短,不同類事物的距離最長。在mahout算法庫中有canopy、k-means、mean-shift、hierarchical、spectral、minhash等一些算法;

分類:分類是一種基于訓練樣本資料區分另外的樣本資料标簽的過程。mahout算法庫中分類子產品包含的算法有:logistic Regression、bayesian、SVM、random forests、HMM;

關聯:關聯在mahout裡面也加協同過濾,又稱推薦算法。基于兩件事件間的關聯來探索事件間的相似度,而不去理會他們之間的因果性。在mahout算法庫中包含基于項目的協同過濾算法、頻繁項集挖掘算法。

在學術應用中,mahout被用于資料分析研究中,在大規模資料分析和資料挖掘中使用hadoop和mapreduce來進行并行計算分析。

我在工作學習中,把主要精力都放在算法應用中,從現有算法中發覺更大的商業利益和有利于國計民生的道路。寒假時期間看塗子沛的著作《大資料》,有很深的感觸,感慨之前寫博文都是在一闆一眼的寫教程,後來發現這樣不行,沒有指導意義。還是得從思想來匡扶教育,泯正人心。

繼續閱讀