天天看點

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

一、Spark系統概述

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

左側是原生Spark的架構圖,右邊Spark on MaxCompute運作在阿裡雲自研的Cupid的平台之上,該平台可以原生支援開源社群Yarn所支援的計算架構,如Spark等。

二、Spark運作在用戶端的配置和使用

2.1打開連結下載下傳用戶端到本地

http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz

2.2将檔案上傳的ECS上

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

2.3将檔案解壓

tar -zxvf spark-2.3.0-odps0.30.0.tar.gz
           

2.4配置Spark-default.conf

# spark-defaults.conf
# 一般來說預設的template隻需要再填上MaxCompute相關的賬号資訊就可以使用Spark
spark.hadoop.odps.project.name =
spark.hadoop.odps.access.id =
spark.hadoop.odps.access.key =

# 其他的配置保持自帶值一般就可以了
spark.hadoop.odps.end.point = http://service.cn.maxcompute.aliyun.com/api
spark.hadoop.odps.runtime.end.point = http://service.cn.maxcompute.aliyun-inc.com/api
spark.sql.catalogImplementation=odps
spark.hadoop.odps.task.major.version = cupid_v2
spark.hadoop.odps.cupid.container.image.enable = true
spark.hadoop.odps.cupid.container.vm.engine.type = hyper
           

2.5在github上下載下傳對應代碼

https://github.com/aliyun/MaxCompute-Spark

2.5将代碼上傳到ECS上進行解壓

unzip MaxCompute-Spark-master.zip
           

2.6将代碼打包成jar包(確定安裝Maven)

cd MaxCompute-Spark-master/spark-2.x
mvn clean package
           

2.7檢視jar包,并進行運作

bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.SparkPi \
MaxCompute-Spark-master/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jar
           

三、Spark運作在DataWorks的配置和使用

3.1進入DataWorks控制台界面,點選業務流程

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

3.2打開業務流程,建立ODPS Spark節點

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

3.3上傳jar包資源,點選對應的jar包上傳,并送出

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

3.4配置對應ODPS Spark的節點配置點選儲存并送出,點選運作檢視運作狀态

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

四、Spark在本地idea測試環境的使用

4.1下載下傳用戶端與模闆代碼并解壓

用戶端:

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

模闆代碼:

4.2打開idea,點選Open選擇模闆代碼

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

4.2安裝Scala插件

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

4.3配置maven

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

4.4配置JDK和相關依賴

Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用

歡迎加入“MaxCompute開發者社群2群”,點選連結申請加入或掃描二維碼

https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745
Spark在MaxCompute的運作方式一、Spark系統概述二、Spark運作在用戶端的配置和使用三、Spark運作在DataWorks的配置和使用四、Spark在本地idea測試環境的使用