Spark 運作環境
Spark 作為一個資料處理架構和計算引擎,被設計在所有常見的叢集環境中運作, 在國内工作中主流的環境為Yarn,不過逐漸容器式環境也慢慢流行起來。接下來,我們就分别看看不同環境下Spark 的運作
3.1Local 模式
想啥呢,你之前一直在使用的模式可不是 Local 模式喲。所謂的Local 模式,就是不需要其他任何節點資源就可以在本地執行 Spark 代碼的環境,一般用于教學,調試,示範等, 之前在 IDEA 中運作代碼的環境我們稱之為開發環境,不太一樣。
3.1.1解壓縮檔案
将
spark-3.0.0-bin-hadoop3.2.tgz
檔案上傳到Linux 并解壓縮,放置在指定位置,路徑中不要包含中文或空格,課件後續如果涉及到解壓縮操作,不再強調。
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module
mv spark-3.0.0-bin-hadoop3.2 spark-local
3.1.2啟動 Local 環境
1)進入解壓縮後的路徑,執行如下指令
bin/spark-shell
bin/spark-shell
2)啟動成功後,可以輸入網址進行 Web UI 監控頁面通路
http://虛拟機位址:4040
3.1.3指令行工具
在解壓縮檔案夾下的 data 目錄中,添加 word.txt 檔案。在指令行工具中執行如下代碼指令(和 IDEA 中代碼簡化版一緻)
sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
3.1.4退出本地模式
按鍵Ctrl+C 或輸入 Scala 指令
:quit
3.1.5送出應用
1)–class 表示要執行程式的主類,此處可以更換為咱們自己寫的應用程式
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10