mahout探索之旅---開篇

2023-08-07 15:53:15

零零散散的學習了很多常用算法，也沒有系統的總結過一次，有前輩多次指出學習知識要經常注重總結，從總結規律中學習新的知識。接下來兩三個月着重總結一下mahout分布式計算算法庫架構。資料挖掘算法按功能分四類：分類、聚類、預測、關聯(協同過濾)。

聚類：常言道“人以群分、物以類聚”。一個聚類即是一個類物體的集合，集合的個體是相似的，不同聚類中的個體是不相似的。同類事物的距離最短，不同類事物的距離最長。在mahout算法庫中有canopy、k-means、mean-shift、hierarchical、spectral、minhash等一些算法；

分類：分類是一種基于訓練樣本資料區分另外的樣本資料标簽的過程。mahout算法庫中分類子產品包含的算法有：logistic Regression、bayesian、SVM、random forests、HMM；

關聯：關聯在mahout裡面也加協同過濾，又稱推薦算法。基于兩件事件間的關聯來探索事件間的相似度，而不去理會他們之間的因果性。在mahout算法庫中包含基于項目的協同過濾算法、頻繁項集挖掘算法。

在學術應用中，mahout被用于資料分析研究中，在大規模資料分析和資料挖掘中使用hadoop和mapreduce來進行并行計算分析。

我在工作學習中，把主要精力都放在算法應用中，從現有算法中發覺更大的商業利益和有利于國計民生的道路。寒假時期間看塗子沛的著作《大資料》，有很深的感觸，感慨之前寫博文都是在一闆一眼的寫教程，後來發現這樣不行，沒有指導意義。還是得從思想來匡扶教育，泯正人心。

mahout探索之旅---開篇

繼續閱讀

智能數字圖像處理之FastRCNN（pytorch）代碼解讀之faster_rcnn_framework.py

2020.11.26丨sam轉換bam格式報錯parse error at line 1解決辦法

2020.9.2丨遺傳圖譜産品類型

2021.3.20丨Cutadapt資料統計腳本

2021.01.07丨使用fastp統計樣品品質結果

2021.01.05丨根據基因名稱拼接表達量與相關注釋

Win10使用HttpWatch9.4相容性問題的解決方案一、前言二、處理IE使用HttpWatch9.4相容問題三、解決Firefox使用HttpWatch9.4相容問題四、結束語

BAT面試——有所觸動寫在前面offer情況自學之路校招流水賬一些不錯的面經一些感悟

僞代碼和算法了解個人覺得，僞代碼不應該是起讓人了解的作用，而是起這樣一種作用：讓一個即使不懂該算法如何實作的人，看到這個僞代碼看着打了以後都能實作這個算法。

2019校招農行筆試範圍與經驗

poj題目詳細分類及算法推薦題目

程式員關于提高工作效率

2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫

開篇叙事我為什麼會在這兒

WEB程式員，界面美化是你心中永遠的痛嗎？