2.單擊該頁右上角的建立作業,進入建立作業頁面。
3.填寫作業名稱。
4.選擇 spark 作業類型,表示建立的作業是一個 spark 作業。spark 作業在 e-mapreduce 背景使用以下的方式送出:
<code>spark-submit [options] --class [mainclass] xxx.jar args</code>
5.在應用參數選項框中填寫送出該 spark 作業需要的指令行參數。請注意,應用參數框中隻需要填寫“spark-submit”之後的參數即可。以下分别示例如何填寫建立 spark 作業和 pyspark 作業的參數。
建立 spark 作業
建立一個 spark wordcount 作業。
作業名稱: wordcount
類型:選擇 spark
應用參數:
在指令行下完整的送出指令是:
在 e-mapreduce 作業的應用參數框中隻需要填寫:
需要注意的是:作業 jar 包儲存在 oss 中,引用這個 jar 包的方式是<code>ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar</code>。您可以單擊選擇 oss 路徑,從 oss 中進行浏覽和選擇,系統會自動補齊 oss 上 spark 腳本的絕對路徑。請務必将預設的“oss”協定切換成“ossref”協定。
建立 pyspark 作業
e-mapreduce 除了支援 scala 或者 java 類型作業外,還支援 python 類型 spark 作業。以下建立一個 python 腳本的 spark kmeans 作業。
作業名稱:<code>python-kmeans</code>
類型:spark
支援 python 腳本資源的引用,同樣使用“ossref”協定。
pyspark 目前不支援線上安裝 python 工具包。
6選擇執行失敗後政策。
7.單擊确定,spark 作業即定義完成。