Scala-IDE Eclipse（Windows)中開發Spark應用程式，在Ubuntu Spark叢集上運作

2021-11-07 11:59:40

在進行實際的spark應用程式開發時，常常會利用window環境進行程式開發，開發測試好之後送出到spark叢集中利用bin/spark-submit腳本進行程式的釋出運作，本教程教将一步一步地教大家如何進行該操作。本教程主要内容如下：

window開發環境說明

spark叢集運作環境說明

scala ide for eclipse中spark程式開發

利用spark-submit腳本送出到spark叢集當中運作

(1)scala-ide eclipse ，版本号見下圖

Scala-IDE Eclipse（Windows)中開發Spark應用程式，在Ubuntu Spark叢集上運作

(2) java版本号 jdk 1.7

(3) scala 版本号 2.10.4

(1)作業系統：ubuntu 10.04

(2) java與scala版本号與windows上一緻

(3) hadoop 版本 hadoop 2.2.0

(4) spark 版本 spark 1.1.0

配置如下：

ip位址

主機名

運作程序

192.168.1.104

cluster04

quorumpeermain(zookeeper程序） master（spark master程序） datanode journalnode resourcemanager（yanr資料總管） nodemanager worker

192.168.1.105

cluster05

namenode quorumpeermain(zookeeper程序） worker（spark worker程序） nodemanager datanode dfszkfailovercontroller（用于實作 namenode ha) journalnode

192.168.1.106

cluster06

namenode quorumpeermain(zookeeper程序） worker（spark worker程序） nodemanager datanode dfszkfailovercontroller（用于實作 namenode ha) journalnode

(1) 在scala ide for eclipse建立一個scala project，全名為:sparkwordcount

(2) 将spark-assembly-1.1.0-hadoop2.2.0.jar導入

(3)工程結構如下圖

(4) 将userpurchasehistory.csv上傳到hdfs根目錄：hadoop fs -put /data/userpurchasehistory.csv /

userpurchasehistory.csv内容如下：

第一清單示客戶姓名，第二清單示購買物品，第三清單示物品價格

(4)建立包cn.ml，并建立scala object，全名為purchaseproduct，代碼如下：

(5)将工程打包成jar檔案：sparkwordcount.jar

(1)将打包好的sparkwordcount.jar檔案上傳到spark master所在的機器cluster04的根目錄上，然後運作下列腳本：

/spark-1.1.0/bin# ./spark-submit –master spark://itcast04:7077 –class cn.ml.purchaseproduct /sparkwordcount.jar

–master 用于指定叢集的master

–class 用于指定待運作的主類

(2) 運作結果圖

Scala-IDE Eclipse（Windows)中開發Spark應用程式，在Ubuntu Spark叢集上運作

繼續閱讀

程式設計高手：VC 6.0下利用消息實作内部程序通訊

Compile workrave under windows &ndash; My exprience 在Windows上編譯Workrave

Android面試題——5.常見面試官提問Android面試題①

Windows下使用GSL（GNU Scientific Library）

Android常用工具類簡介目錄

android常用工具類轉載自：http://www.trinea.cn/android/android-common-utils/Android常用工具類

windows不能在本地計算機上運作oracleDbConsoleorcl

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

Android電視機（機頂盒）初次開發的一些經驗分享

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method