Spark運作模式 local 模式

2022-09-15 19:36:23

Spark 運作環境

Spark 作為一個資料處理架構和計算引擎，被設計在所有常見的叢集環境中運作, 在國内工作中主流的環境為Yarn，不過逐漸容器式環境也慢慢流行起來。接下來，我們就分别看看不同環境下Spark 的運作

想啥呢，你之前一直在使用的模式可不是 Local 模式喲。所謂的Local 模式，就是不需要其他任何節點資源就可以在本地執行 Spark 代碼的環境，一般用于教學，調試，示範等，之前在 IDEA 中運作代碼的環境我們稱之為開發環境，不太一樣。

将

spark-3.0.0-bin-hadoop3.2.tgz

檔案上傳到Linux 并解壓縮，放置在指定位置，路徑中不要包含中文或空格，課件後續如果涉及到解壓縮操作，不再強調。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module 
cd /opt/module
mv spark-3.0.0-bin-hadoop3.2 spark-local

1)進入解壓縮後的路徑，執行如下指令

bin/spark-shell

bin/spark-shell

2)啟動成功後，可以輸入網址進行 Web UI 監控頁面通路

http://虛拟機位址:4040

在解壓縮檔案夾下的 data 目錄中，添加 word.txt 檔案。在指令行工具中執行如下代碼指令（和 IDEA 中代碼簡化版一緻）

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

按鍵Ctrl+C 或輸入 Scala 指令

:quit

1)–class 表示要執行程式的主類，此處可以更換為咱們自己寫的應用程式

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.0.0.jar \
10