python3.6下的spark搭建
一、前言
這是AllenXue的第一條blog,可能會很low,但是絕對是非常有意義的,自認為本人是為數不多的長得比較帥的程式員(雖然有點小胖),這條blog也是開啟瘋狂學習模式的起點。本人在學習過程中,如果有學習心得會在第一時間分享給大家。
二、關于spark
Spark是專為大規模資料處理而設計的快速通用的計算引擎。Spark是加州大學伯克利分校的AMP實驗室所開源的類Hadoop MapReduce的通用并行架構,Spark擁有Hadoop MapReduce所具有的優點。
Spark是在Scala語言中實作的,它将Scala 用作其應用程式架構。與 Hadoop不同,Spark 和 Scala 能夠緊密內建,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式資料集。
為了适應疊代計算,Spark把經常被重用的資料緩存到記憶體中以提高資料讀取和操作速度,Spark比Hadoop快近百倍,支援Java、Scla、Pyhon、R等多種語言,除map和reduce之外,還支援filter、foreach、reduceByKey、aggregate以及SQL查詢、流式查詢等。
進行Spark應用開發時,一般是
先在本地進行開發和測試,通過測試後再送出到叢集執行,下面我們以Win 10 64-bit平台為例環境的搭建和簡單使用。
三、搭建過程
1、下載下傳安裝JDK
官網(https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html )下載下傳最新版本JDK(本人下載下傳的是jdk1.8_221)
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHLykkaOBTQU5EMNpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLzAjN0MDNxATM3ITOwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
點選 Accept License Agreement ,再點選 jdk-8u221-windows-x64.exe 進行下載下傳(可以用迅雷進行下載下傳,這樣會快很多)
下載下傳完成後,打開進行安裝,在路徑設定時記住自己所設定的路徑(不建議安裝在C槽),後面會用到
注意:安裝過程會提示安裝jre,無需安裝,jdk中已經含有jre
2、配置JDK的環境變量
右擊此電腦,打開屬性
點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立JAVA_HOME,編輯為jdk的所在路徑
系統變量→ Path →編輯 →建立 →輸入jdk所在路徑
完成後點回車,再重複上述步驟輸入jre所在路徑,完成後點回車,結果如下圖:
再建立CLASSPATH,并編輯為.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(注意不要忘記前面的 . )
驗證是否安裝成功
在指令提示符中輸入java -version
出現上圖所示的内容即為安裝完成。
3、下載下傳安裝Scala
在官網上(https://www.scala-lang.org/download/
)下載下傳最新版本的Scala(本人下載下傳的是scala-2.13.0.msi)
安裝過程和JDK安裝類似,記住安裝路徑,我的安裝路徑選擇在D盤
4、配置Scala的環境變量
注意:在配置Scala的環境變量之前,一定要完成JDK的安裝和環境配置
右擊此電腦,打開屬性
系統變量→ Path →編輯 →建立 →輸入 Scala所在路徑+/bin/
完成後點回車,結果如下圖:
驗證是否安裝成功
在指令提示符中輸入salar -versio
出現上圖所示的内容即為安裝完成。
5、下載下傳安裝Spark
在官網(http://spark.apache.org/downloads.html
)上下載下傳Spark
下載下傳完成後,解壓到D盤即可
6、配置Spark的環境變量
右擊此電腦,打開屬性
[外鍊圖檔轉存失敗,源站可能有防盜鍊機制,建議将圖檔儲存下來直接上傳(img-qujgjnJn-1569550339419)(python3-6-下的spark搭建/2.png)]
點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立SPARK_HOME,編輯為spark的所在路徑
7、下載下傳安裝Hadoop
在官網(http://hadoop.apache.org/releases.html
)上下載下傳适應版本的Hadoop(在下載下傳解壓的spark檔案夾檢視,可以看出我要下載下傳的是2.7及以後的版本)
點選binary進行下載下傳,完成後解壓到D盤即可
6、配置Hadoop的環境變量
右擊此電腦,打開屬性
點選進階系統設定并點選環境變量,開始配置。在系統變量欄建立SPARK_HOME,編輯為spark的所在路徑
7、winutils下載下傳
下載下傳位址(https://github.com/steveloughran/winutils
),點選 Clone or download 下載下傳 winutils-master.zip
将其打開并将bin檔案夾複制到Hadoop所在路徑下
選擇替換目标中的的檔案
8、安裝擴充庫py4j
以管理者身份打開指令提示符,運作
pip install py4j
注意:如果出錯,一般為網速問題;也有可能是pip版本太低,更新pip版本即可
9、驗證
打開指令提示符,将路徑切換到spark-2.4.3-bin-hadoop2.7\bin所在路徑,執行指令pyspark.cmd,進入Python開發環境(不僅可以使用pyspark庫,還可以使用Python标準庫和已安裝的擴充庫)
沒有出現錯誤資訊,到這一步已經算是成功了,在此恭喜你已經成功搭建好了python下的spark
另外,在Spark的bin檔案夾中還提供了spark-submit.cmd 檔案。
打開指令提示符,輸入以下指令
spark-shell
将Spark context Web UI available at 後的網址在浏覽器中打開,可以通路控制台中的webui 。
spark-shell
将Spark context Web UI available at 後的網址在浏覽器中打開,可以通路控制台中的webui 。