跟我一起資料挖掘（22）——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

2021-11-06 22:31:41

spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用的并行，spark，擁有hadoop mapreduce所具有的優點；但不同于mapreduce的是job中間輸出結果可以儲存在記憶體中，進而不再需要讀寫hdfs，是以spark能更好地适用于資料挖掘與機器學習等需要疊代的map reduce的算法。

跟我一起資料挖掘（22）——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

spark是基于記憶體，是雲計算領域的繼hadoop之後的下一代的最熱門的通用的并行計算架構開源項目，尤其出色的支援interactive query、流計算、圖計算等。

spark在機器學習方面有着無與倫比的優勢，特别适合需要多次疊代計算的算法。同時spark的擁有非常出色的容錯和排程機制，確定系統的穩定運作，spark目前的發展理念是通過一個計算架構集合sql、machine learning、graph computing、streaming computing等多種功能于一個項目中，具有非常好的易用性。目前spark已經建構了自己的整個大資料處理生态系統，如流處理、圖技術、機器學習、nosql查詢等方面都有自己的技術，并且是apache頂級project，可以預計的是2014年下半年在社群和商業應用上會有爆發式的增長。spark最大的優勢在于速度，在疊代處理計算方面比hadoop快100倍以上；spark另外一個無可取代的優勢是：“one stack to rule them all”，spark采用一個統一的技術堆棧解決了雲計算大資料的所有核心問題，這直接奠定了其一統雲計算大資料領域的霸主地位；

下圖是使用邏輯回歸算法的使用時間：

spark目前支援scala、python、java程式設計。

作為spark的原生語言，scala是開發spark應用程式的首選，其優雅簡潔的代碼，令開發過mapreduce代碼的碼農感覺象是上了天堂。

可以架構在hadoop之上，讀取hadoop、hbase資料。

1、standalone模式，即獨立模式，自帶完整的服務，可單獨部署到一個叢集中，無需依賴任何其他資源管理系統。

2、spark on mesos模式。這是很多公司采用的模式，官方推薦這種模式（當然，原因之一是血緣關系）。

3、spark on yarn模式。這是一種最有前景的部署模式。

流程：進入linux->安裝jdk->安裝scala->安裝spark。

jdk的安裝和配置（略）。

下載下傳後解壓縮。

source /etc/profile

scala設定成功。

進入$spark_home/bin，運作

運作結果

可以看到輸出結果為3.14438。

跟我一起資料挖掘（22）——spark入門Spark簡介 Spark優點 spark的部署方式 spark本機安裝

繼續閱讀

Ajax——模闆引擎

使用underscore的template自定義模闆

underscore模闆功能的使用和學習

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

七牛雲-C#SDK-上傳-前期準備

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題