python3.6下的spark搭建

一、前言

這是AllenXue的第一條blog，可能會很low，但是絕對是非常有意義的，自認為本人是為數不多的長得比較帥的程式員（雖然有點小胖），這條blog也是開啟瘋狂學習模式的起點。本人在學習過程中，如果有學習心得會在第一時間分享給大家。

二、關于spark

Spark是專為大規模資料處理而設計的快速通用的計算引擎。Spark是加州大學伯克利分校的AMP實驗室所開源的類Hadoop MapReduce的通用并行架構，Spark擁有Hadoop MapReduce所具有的優點。

Spark是在Scala語言中實作的，它将Scala 用作其應用程式架構。與 Hadoop不同，Spark 和 Scala 能夠緊密內建，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式資料集。

為了适應疊代計算,Spark把經常被重用的資料緩存到記憶體中以提高資料讀取和操作速度,Spark比Hadoop快近百倍，支援Java、Scla、Pyhon、R等多種語言，除map和reduce之外,還支援filter、foreach、reduceByKey、aggregate以及SQL查詢、流式查詢等。

進行Spark應用開發時，一般是

先在本地進行開發和測試，通過測試後再送出到叢集執行，下面我們以Win 10 64-bit平台為例環境的搭建和簡單使用。

三、搭建過程

1、下載下傳安裝JDK

官網（https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html ）下載下傳最新版本JDK（本人下載下傳的是jdk1.8_221）

python3.6 下的spark搭建python3.6下的spark搭建

點選 Accept License Agreement ,再點選 jdk-8u221-windows-x64.exe 進行下載下傳（可以用迅雷進行下載下傳，這樣會快很多）

下載下傳完成後，打開進行安裝，在路徑設定時記住自己所設定的路徑（不建議安裝在C槽），後面會用到

注意：安裝過程會提示安裝jre，無需安裝，jdk中已經含有jre

2、配置JDK的環境變量

右擊此電腦，打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

點選進階系統設定并點選環境變量，開始配置。在系統變量欄建立JAVA_HOME，編輯為jdk的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

系統變量→ Path →編輯 →建立 →輸入jdk所在路徑

完成後點回車，再重複上述步驟輸入jre所在路徑，完成後點回車，結果如下圖：

python3.6 下的spark搭建python3.6下的spark搭建

再建立CLASSPATH，并編輯為.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar（注意不要忘記前面的 . ）

python3.6 下的spark搭建python3.6下的spark搭建

驗證是否安裝成功

在指令提示符中輸入java -version

python3.6 下的spark搭建python3.6下的spark搭建

出現上圖所示的内容即為安裝完成。

3、下載下傳安裝Scala

在官網上（https://www.scala-lang.org/download/

）下載下傳最新版本的Scala（本人下載下傳的是scala-2.13.0.msi）

python3.6 下的spark搭建python3.6下的spark搭建

安裝過程和JDK安裝類似，記住安裝路徑，我的安裝路徑選擇在D盤

4、配置Scala的環境變量

注意：在配置Scala的環境變量之前，一定要完成JDK的安裝和環境配置

右擊此電腦，打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

系統變量→ Path →編輯 →建立 →輸入 Scala所在路徑+/bin/

完成後點回車，結果如下圖：

python3.6 下的spark搭建python3.6下的spark搭建

驗證是否安裝成功

在指令提示符中輸入salar -versio

python3.6 下的spark搭建python3.6下的spark搭建

出現上圖所示的内容即為安裝完成。

5、下載下傳安裝Spark

在官網（http://spark.apache.org/downloads.html

）上下載下傳Spark

python3.6 下的spark搭建python3.6下的spark搭建

下載下傳完成後，解壓到D盤即可

6、配置Spark的環境變量

右擊此電腦，打開屬性

[外鍊圖檔轉存失敗,源站可能有防盜鍊機制,建議将圖檔儲存下來直接上傳(img-qujgjnJn-1569550339419)(python3-6-下的spark搭建/2.png)]

點選進階系統設定并點選環境變量，開始配置。在系統變量欄建立SPARK_HOME，編輯為spark的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

7、下載下傳安裝Hadoop

在官網（http://hadoop.apache.org/releases.html

）上下載下傳适應版本的Hadoop（在下載下傳解壓的spark檔案夾檢視，可以看出我要下載下傳的是2.7及以後的版本）

python3.6 下的spark搭建python3.6下的spark搭建

點選binary進行下載下傳，完成後解壓到D盤即可

6、配置Hadoop的環境變量

右擊此電腦，打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

點選進階系統設定并點選環境變量，開始配置。在系統變量欄建立SPARK_HOME，編輯為spark的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

7、winutils下載下傳

下載下傳位址（https://github.com/steveloughran/winutils

），點選 Clone or download 下載下傳 winutils-master.zip

python3.6 下的spark搭建python3.6下的spark搭建

将其打開并将bin檔案夾複制到Hadoop所在路徑下

python3.6 下的spark搭建python3.6下的spark搭建

選擇替換目标中的的檔案

8、安裝擴充庫py4j

以管理者身份打開指令提示符，運作

pip install py4j

注意：如果出錯，一般為網速問題；也有可能是pip版本太低，更新pip版本即可

9、驗證

打開指令提示符，将路徑切換到spark-2.4.3-bin-hadoop2.7\bin所在路徑，執行指令pyspark.cmd，進入Python開發環境（不僅可以使用pyspark庫，還可以使用Python标準庫和已安裝的擴充庫）

python3.6 下的spark搭建python3.6下的spark搭建

沒有出現錯誤資訊，到這一步已經算是成功了，在此恭喜你已經成功搭建好了python下的spark

另外，在Spark的bin檔案夾中還提供了spark-submit.cmd 檔案。

打開指令提示符，輸入以下指令

spark-shell

python3.6 下的spark搭建python3.6下的spark搭建

将Spark context Web UI available at 後的網址在浏覽器中打開，可以通路控制台中的webui 。

spark-shell

python3.6 下的spark搭建python3.6下的spark搭建

将Spark context Web UI available at 後的網址在浏覽器中打開，可以通路控制台中的webui 。

python3.6 下的spark搭建python3.6下的spark搭建

python3.6下的spark搭建

一、前言

二、關于spark

三、搭建過程

1、下載下傳安裝JDK

2、配置JDK的環境變量

3、下載下傳安裝Scala

4、配置Scala的環境變量

5、下載下傳安裝Spark

6、配置Spark的環境變量

7、下載下傳安裝Hadoop

6、配置Hadoop的環境變量

7、winutils下載下傳

8、安裝擴充庫py4j

9、驗證

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入