天天看點

Apache Spark機器學習.1.3 機器學習算法

<b>1.3 機器學習算法</b>

<b></b>

本節将回顧機器學習所需的算法,介紹機器學習庫,包括spark的mllib和ibm的systemml,然後讨論它們與spark的內建。

閱讀本節之後,讀者将會熟悉包括spark mllib在内的各種機器學習庫,知道如何利用它們進行機器學習。

為完成機器學習項目,資料科學家經常使用機器學習工具(如r語言或matlab)上的一些成熟分類或回歸算法開發和評估預測模型。要完成一個機器學習項目,除了資料集和計算平台,這些機器學習算法庫也是十分必要的。

例如,r語言提供了專業人員使用的各類算法,是以得到了廣泛流行和深入使用。r語言有1000多個程式包,資料科學家可能不需要全部的程式包,但需要幾個關鍵的程式包:

資料加載:使用rodbc或rmysql

資料操作:使用stringr或lubridate

資料可視化:使用ggplot2或leaflet

資料模組化:使用random forest或survival

報告結果:使用shiny或markdown

根據近期computerworld的調查,下載下傳最多的r語言程式包如下:

程式包名稱 下載下傳次數

rcpp 162778

ggplot2 146008

plyr 123889

stringr 120387

colorspace 118798

digest 113899

reshape2 109869

rcolorbrewer 100623

scales 92448

manipulate 88664

更多的資訊,請通路:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。

繼續閱讀