天天看點

python3.6 下的spark搭建python3.6下的spark搭建

python3.6下的spark搭建

一、前言

這是AllenXue的第一條blog,可能會很low,但是絕對是非常有意義的,自認為本人是為數不多的長得比較帥的程式員(雖然有點小胖),這條blog也是開啟瘋狂學習模式的起點。本人在學習過程中,如果有學習心得會在第一時間分享給大家。

二、關于spark

Spark是專為大規模資料處理而設計的快速通用的計算引擎。Spark是加州大學伯克利分校的AMP實驗室所開源的類Hadoop MapReduce的通用并行架構,Spark擁有Hadoop MapReduce所具有的優點。

Spark是在Scala語言中實作的,它将Scala 用作其應用程式架構。與 Hadoop不同,Spark 和 Scala 能夠緊密內建,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式資料集。

為了适應疊代計算,Spark把經常被重用的資料緩存到記憶體中以提高資料讀取和操作速度,Spark比Hadoop快近百倍,支援Java、Scla、Pyhon、R等多種語言,除map和reduce之外,還支援filter、foreach、reduceByKey、aggregate以及SQL查詢、流式查詢等。

進行Spark應用開發時,一般是

先在本地進行開發和測試,通過測試後再送出到叢集執行,下面我們以Win 10 64-bit平台為例環境的搭建和簡單使用。

三、搭建過程

1、下載下傳安裝JDK

官網(https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html )下載下傳最新版本JDK(本人下載下傳的是jdk1.8_221)

python3.6 下的spark搭建python3.6下的spark搭建

點選 Accept License Agreement ,再點選 jdk-8u221-windows-x64.exe 進行下載下傳(可以用迅雷進行下載下傳,這樣會快很多)

下載下傳完成後,打開進行安裝,在路徑設定時記住自己所設定的路徑(不建議安裝在C槽),後面會用到

注意:安裝過程會提示安裝jre,無需安裝,jdk中已經含有jre

2、配置JDK的環境變量

右擊此電腦,打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立JAVA_HOME,編輯為jdk的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

系統變量→ Path →編輯 →建立 →輸入jdk所在路徑

完成後點回車,再重複上述步驟輸入jre所在路徑,完成後點回車,結果如下圖:

python3.6 下的spark搭建python3.6下的spark搭建

再建立CLASSPATH,并編輯為.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(注意不要忘記前面的 . )

python3.6 下的spark搭建python3.6下的spark搭建

驗證是否安裝成功

在指令提示符中輸入java -version

python3.6 下的spark搭建python3.6下的spark搭建

出現上圖所示的内容即為安裝完成。

3、下載下傳安裝Scala

在官網上(https://www.scala-lang.org/download/

)下載下傳最新版本的Scala(本人下載下傳的是scala-2.13.0.msi)

python3.6 下的spark搭建python3.6下的spark搭建

安裝過程和JDK安裝類似,記住安裝路徑,我的安裝路徑選擇在D盤

4、配置Scala的環境變量

注意:在配置Scala的環境變量之前,一定要完成JDK的安裝和環境配置

右擊此電腦,打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

系統變量→ Path →編輯 →建立 →輸入 Scala所在路徑+/bin/

完成後點回車,結果如下圖:

python3.6 下的spark搭建python3.6下的spark搭建

驗證是否安裝成功

在指令提示符中輸入salar -versio

python3.6 下的spark搭建python3.6下的spark搭建

出現上圖所示的内容即為安裝完成。

5、下載下傳安裝Spark

在官網(http://spark.apache.org/downloads.html

)上下載下傳Spark

python3.6 下的spark搭建python3.6下的spark搭建

下載下傳完成後,解壓到D盤即可

6、配置Spark的環境變量

右擊此電腦,打開屬性

[外鍊圖檔轉存失敗,源站可能有防盜鍊機制,建議将圖檔儲存下來直接上傳(img-qujgjnJn-1569550339419)(python3-6-下的spark搭建/2.png)]

點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立SPARK_HOME,編輯為spark的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

7、下載下傳安裝Hadoop

在官網(http://hadoop.apache.org/releases.html

)上下載下傳适應版本的Hadoop(在下載下傳解壓的spark檔案夾檢視,可以看出我要下載下傳的是2.7及以後的版本)

python3.6 下的spark搭建python3.6下的spark搭建
python3.6 下的spark搭建python3.6下的spark搭建

點選binary進行下載下傳,完成後解壓到D盤即可

6、配置Hadoop的環境變量

右擊此電腦,打開屬性

python3.6 下的spark搭建python3.6下的spark搭建

點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立SPARK_HOME,編輯為spark的所在路徑

python3.6 下的spark搭建python3.6下的spark搭建

7、winutils下載下傳

下載下傳位址(https://github.com/steveloughran/winutils

),點選 Clone or download 下載下傳 winutils-master.zip

python3.6 下的spark搭建python3.6下的spark搭建
python3.6 下的spark搭建python3.6下的spark搭建

将其打開并将bin檔案夾複制到Hadoop所在路徑下

python3.6 下的spark搭建python3.6下的spark搭建

選擇替換目标中的的檔案

8、安裝擴充庫py4j

以管理者身份打開指令提示符,運作

pip install py4j
           

注意:如果出錯,一般為網速問題;也有可能是pip版本太低,更新pip版本即可

9、驗證

打開指令提示符,将路徑切換到spark-2.4.3-bin-hadoop2.7\bin所在路徑,執行指令pyspark.cmd,進入Python開發環境(不僅可以使用pyspark庫,還可以使用Python标準庫和已安裝的擴充庫)

python3.6 下的spark搭建python3.6下的spark搭建

沒有出現錯誤資訊,到這一步已經算是成功了,在此恭喜你已經成功搭建好了python下的spark

另外,在Spark的bin檔案夾中還提供了spark-submit.cmd 檔案。

打開指令提示符,輸入以下指令

spark-shell
           
python3.6 下的spark搭建python3.6下的spark搭建

将Spark context Web UI available at 後的網址在浏覽器中打開,可以通路控制台中的webui 。

spark-shell
           
python3.6 下的spark搭建python3.6下的spark搭建

将Spark context Web UI available at 後的網址在浏覽器中打開,可以通路控制台中的webui 。

繼續閱讀