天天看點

阿裡雲E-MapReduce Spark 作業配置

2.單擊該頁右上角的建立作業,進入建立作業頁面。

3.填寫作業名稱。

4.選擇 spark 作業類型,表示建立的作業是一個 spark 作業。spark 作業在 e-mapreduce 背景使用以下的方式送出:

<code>spark-submit [options] --class [mainclass] xxx.jar args</code>

5.在應用參數選項框中填寫送出該 spark 作業需要的指令行參數。請注意,應用參數框中隻需要填寫“spark-submit”之後的參數即可。以下分别示例如何填寫建立 spark 作業和 pyspark 作業的參數。

建立 spark 作業

建立一個 spark wordcount 作業。

作業名稱: wordcount

類型:選擇 spark

應用參數:

在指令行下完整的送出指令是:

在 e-mapreduce 作業的應用參數框中隻需要填寫:

需要注意的是:作業 jar 包儲存在 oss 中,引用這個 jar 包的方式是<code>ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar</code>。您可以單擊選擇 oss 路徑,從 oss 中進行浏覽和選擇,系統會自動補齊 oss 上 spark 腳本的絕對路徑。請務必将預設的“oss”協定切換成“ossref”協定。

建立 pyspark 作業

e-mapreduce 除了支援 scala 或者 java 類型作業外,還支援 python 類型 spark 作業。以下建立一個 python 腳本的 spark kmeans 作業。

作業名稱:<code>python-kmeans</code>

類型:spark

支援 python 腳本資源的引用,同樣使用“ossref”協定。

pyspark 目前不支援線上安裝 python 工具包。

6選擇執行失敗後政策。

7.單擊确定,spark 作業即定義完成。