天天看點

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用的并行,spark,擁有hadoop mapreduce所具有的優點;但不同于mapreduce的是job中間輸出結果可以儲存在記憶體中,進而不再需要讀寫hdfs,是以spark能更好地适用于資料挖掘與機器學習等需要疊代的map reduce的算法。

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

spark是基于記憶體,是雲計算領域的繼hadoop之後的下一代的最熱門的通用的并行計算架構開源項目,尤其出色的支援interactive query、流計算、圖計算等。 

spark在機器學習方面有着無與倫比的優勢,特别适合需要多次疊代計算的算法。同時spark的擁有非常出色的容錯和排程機制,確定系統的穩定運作,spark目前的發展理念是通過一個計算架構集合sql、machine learning、graph computing、streaming computing等多種功能于一個項目中,具有非常好的易用性。目前spark已經建構了自己的整個大資料處理生态系統,如流處理、圖技術、機器學習、nosql查詢等方面都有自己的技術,并且是apache頂級project,可以預計的是2014年下半年在社群和商業應用上會有爆發式的增長。spark最大的優勢在于速度,在疊代處理計算方面比hadoop快100倍以上;spark另外一個無可取代的優勢是:“one stack to rule them all”,spark采用一個統一的技術堆棧解決了雲計算大資料的所有核心問題,這直接奠定了其一統雲計算大資料領域的霸主地位;

下圖是使用邏輯回歸算法的使用時間:

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

spark目前支援scala、python、java程式設計。

作為spark的原生語言,scala是開發spark應用程式的首選,其優雅簡潔的代碼,令開發過mapreduce代碼的碼農感覺象是上了天堂。

可以架構在hadoop之上,讀取hadoop、hbase資料。

1、standalone模式,即獨立模式,自帶完整的服務,可單獨部署到一個叢集中,無需依賴任何其他資源管理系統。

2、spark on mesos模式。這是很多公司采用的模式,官方推薦這種模式(當然,原因之一是血緣關系)。

3、spark on yarn模式。這是一種最有前景的部署模式。

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

流程:進入linux->安裝jdk->安裝scala->安裝spark。

jdk的安裝和配置(略)。

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

下載下傳後解壓縮。

source /etc/profile

scala設定成功。

跟我一起資料挖掘(22)——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

進入$spark_home/bin,運作

運作結果

可以看到輸出結果為3.14438。

繼續閱讀