天天看點

Apache Spark機器學習.1.2 在機器學習中應用Spark計算

<b>1.2 在機器學習中應用spark計算</b>

<b></b>

基于rdd和記憶體處理的創新功能,apache spark真正使得分布式計算對于資料科學家和機器學習專業人員來說簡便易用。apache spark團隊表示:apache spark基于mesos 叢集管理器運作,使其可以與hadoop以及其他應用共享資源。是以,apache spark可以從任何hadoop輸入源(如hdfs)中讀取資料。

apache spark計算模型非常适合機器學習中的分布式計算。特别是在快速互動式機器學習、并行計算和大型複雜模型情境下,apache spark無疑可以發揮其卓越效能。

spark開發團隊表示,spark的哲學是使資料科學家和機器學習專業人員的生活更加輕松和高效。是以,apache spark擁有以下特點:

擁有詳細說明文檔,表達清晰的api

強大的專業領域庫

易于與存儲系統內建

通過緩存來避免資料移動

根據databricks聯合創始人patrick wendell的介紹, spark特别适用于大規模資料處理。apache spark支援靈活資料科學進行快速疊代計算,并且spark很容易與ibm和其他綜合解決方案內建。

繼續閱讀