<b>1.3 機器學習算法</b>
<b></b>
本節将回顧機器學習所需的算法,介紹機器學習庫,包括spark的mllib和ibm的systemml,然後讨論它們與spark的內建。
閱讀本節之後,讀者将會熟悉包括spark mllib在内的各種機器學習庫,知道如何利用它們進行機器學習。
為完成機器學習項目,資料科學家經常使用機器學習工具(如r語言或matlab)上的一些成熟分類或回歸算法開發和評估預測模型。要完成一個機器學習項目,除了資料集和計算平台,這些機器學習算法庫也是十分必要的。
例如,r語言提供了專業人員使用的各類算法,是以得到了廣泛流行和深入使用。r語言有1000多個程式包,資料科學家可能不需要全部的程式包,但需要幾個關鍵的程式包:
資料加載:使用rodbc或rmysql
資料操作:使用stringr或lubridate
資料可視化:使用ggplot2或leaflet
資料模組化:使用random forest或survival
報告結果:使用shiny或markdown
根據近期computerworld的調查,下載下傳最多的r語言程式包如下:
程式包名稱 下載下傳次數
rcpp 162778
ggplot2 146008
plyr 123889
stringr 120387
colorspace 118798
digest 113899
reshape2 109869
rcolorbrewer 100623
scales 92448
manipulate 88664
更多的資訊,請通路:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。