windows+spark本地運作環境搭建

2023-04-10 21:41:34

spark作為一個記憶體mapreduce架構，速度是hadoop的10倍甚至100倍。windows下可以通過簡單設定，搭建本地運作環境。

1、下載下傳spark預編譯版本，spark運作環境依賴jdk,scala，這裡下載下傳的最新spark版本是2.3，對應jdk1.8+scala2.11.8。

java -version
java version "1.8.0_151"
Java(TM) SE Runtime Environment (build 1.8.0_151-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.151-b12, mixed mode)

scala -version
Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL

2、下載下傳hadoop-common-2.2工具包，并設定環境變量HADOOP_HOME,PATH。

如果不下載下傳hadoop-common-2.2并設定環境變量，啟動spark-shell時，會報如下錯誤：

ERROR Shell:397 - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binar
ies.

hadoop-common包下有bin目錄，bin目錄中的内容如下：

windows+spark本地運作環境搭建

3、standalone方式啟動spark：進入spark-2.3.0-bin-hadoop2.7目錄，按住shift，滑鼠右鍵->在此處打開指令視窗。運作bin\spark-shell

windows+spark本地運作環境搭建

啟動成功，會進入scala指令行互動界面，然後就可以進行編碼了。

scala> val textFile = sc.textFile("helloSpark.txt");
textFile: org.apache.spark.rdd.RDD[String] = helloSpark.txt MapPartitionsRDD[1] at textFil
e at <console>:24

scala> textFile.foreach(println)
sparkui
hello,java
spark
hello,scala
hello,spark

scala> val counts = textFile.flatMap(line=>line.split(",")).map(x=>(x,1)).reduceByKey((x,y
)=>(x+y))
counts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[10] at reduceByKey at <conso
le>:25

scala> counts.foreach(println)
(spark,2)
(sparkui,1)
(scala,1)
(hello,3)
(java,1)

scala>

這裡運作一個最簡單的wordcount程式，先導入一個文檔，文檔五行内容，然後運作flatMap(),将文檔内容每一行按照逗号分割，然後運作map(),reduceByKey()。

windows+spark本地運作環境搭建

繼續閱讀

《Windows CE大排檔》第一版勘誤表

程式設計高手：VC 6.0下利用消息實作内部程序通訊

Compile workrave under windows &ndash; My exprience 在Windows上編譯Workrave

Windows下使用GSL（GNU Scientific Library）

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

windows不能在本地計算機上運作oracleDbConsoleorcl

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結