Apache Spark機器學習.1.3　機器學習算法

2021-11-08 03:19:36

<b>1.3　機器學習算法</b>

<b></b>

本節将回顧機器學習所需的算法，介紹機器學習庫，包括spark的mllib和ibm的systemml，然後讨論它們與spark的內建。

閱讀本節之後，讀者将會熟悉包括spark mllib在内的各種機器學習庫，知道如何利用它們進行機器學習。

為完成機器學習項目，資料科學家經常使用機器學習工具（如r語言或matlab）上的一些成熟分類或回歸算法開發和評估預測模型。要完成一個機器學習項目，除了資料集和計算平台，這些機器學習算法庫也是十分必要的。

例如，r語言提供了專業人員使用的各類算法，是以得到了廣泛流行和深入使用。r語言有1000多個程式包，資料科學家可能不需要全部的程式包，但需要幾個關鍵的程式包：

資料加載：使用rodbc或rmysql

資料操作：使用stringr或lubridate

資料可視化：使用ggplot2或leaflet

資料模組化：使用random forest或survival

報告結果：使用shiny或markdown

根據近期computerworld的調查，下載下傳最多的r語言程式包如下：

程式包名稱下載下傳次數

rcpp 162778

ggplot2 146008

plyr 123889

stringr 120387

colorspace 118798

digest 113899

reshape2 109869

rcolorbrewer 100623

scales 92448

manipulate 88664

更多的資訊，請通路：http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。

繼續閱讀