分布式資料挖掘為何受到如此熱議呢?在網際網路發展中發揮着怎麼樣的作用呢?
大資料挖掘迅速地接納了來源于其它科技領域的思想觀念,涉及最優化方法、進化計算方法、資訊論、數字信号處理、資料可視化和文字檢索。大資料挖掘的任務包括是關聯分析、聚類分析、分類管理、預測分析、時序模式和偏差具體分析。
BR-MLP(波若資料挖掘平台)是基于大資料BR-ODP的分布式資料挖掘平台,基于Hadoop和Spark技術,支援海量資料挖掘。提供資料源、資料預處理、特征工程、統計分析、機器學習……元件。

1.資料源
提供資料集載入方案和方案中資料儲存到平台中的功能,
2.資料預處理
對資料進行清洗、類型轉化、值填充等,使資料内容和結構更規整,以便後續元件處理,其包含:去除重複、随機采樣、分層采樣……
3特征工程
對預處理好的規整資料進行更深入的處理,主要有尺度變換、異常平滑、特征抽取和降維等。
特征離散、特征抽取……是其顯著特征
4統計分析
對資料統計分析,了解資料的整體或詳情、分布、相關性和适配度檢驗等,使我們在做資料預處理和特征工程時,心中有數,知道哪些因素對我們最終的結果影響比較大等。
5分類與回歸
建構分類或回歸模型,建立的模型應用于後續的業務資料(應用資料)的預測/分類、回歸等。BR-MLP包括決策樹分類、決策樹回、樸素貝葉斯、随機森林分類……等12個算法。
6聚類
提供無監督的聚類機器學習方法,包括文本主題聚類等,可單獨使用,進行自動分類,也可以和分類算法結合使用,先用聚類得到類别,再将得到的類别作為分類模組化中的标簽,建構分類模型。
7協同過濾
BR-MLP支援協同過濾,可用于分辨某特定顧客可能感興趣的東西,這些結論來自于對其他相似顧客對哪些産品感興趣的分析。協同過濾以其出色的速度和健壯性,在全球網際網路領域炙手可熱。
8關聯分析
用于分析事物之間的關聯性,包括人與人之間的關聯性,物與物之間的關聯性,最經典的是尿布與啤酒的案例,在購物籃分析中很常用。
9深度學習
通過組合低層特征形成更加抽象的高層表示屬性類别或特征,以發現資料的分布式特征表示。
10模型應用
選擇已經建好的算法模型,将選出的模型應用于業務層面。
11可視化
将分類/回歸、聚類模型應用結果進行圖形化展現。