天天看點

利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)

(1)準備工作

1)  安裝JDK 6或者JDK 7

2)  安裝scala 2.10.x (注意版本)

2)下載下傳Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同):http://www.jetbrains.com/idea/download/

3)将下載下傳的Intellij IDEA解壓後,安裝scala插件,流程如下:

依次選擇“Configure”–> “Plugins”–> “Browse repositories”,輸入scala,然後安裝即可

利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)

(2)搭建Spark源碼閱讀環境(需要聯網)

一種方法是直接依次選擇“import project”–> 選擇spark所在目錄 –> “SBT”,之後intellij會自動識别SBT檔案,并下載下傳依賴的外部jar包,整個流程用時非常長,取決于機器的網絡環境(不建議在windows下操作,可能遇到各種問題),一般需花費幾十分鐘到幾個小時。注意,下載下傳過程會用到git,是以應該事先安裝了git。

第二種方法是首先在linux作業系統上生成intellij項目檔案,然後在intellij IDEA中直接通過“Open Project”打開項目即可。在linux上生成intellij項目檔案的方法(需要安裝git,不需要安裝scala,sbt會自動下載下傳)是:在spark源代碼根目錄下,輸入sbt/sbt gen-idea

注:如果你在windows下閱讀源代碼,建議先在linux下生成項目檔案,然後導入到windows中的intellij IDEA中。

(3)搭建Spark開發環境

在intellij IDEA中建立scala project,并依次選擇“File”–> “project structure” –> “Libraries”,選擇“+”,将spark-hadoop 對應的包導入,比如導入spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar(隻需導入該jar包,其他不需要),如果IDE沒有識别scala 庫,則需要以同樣方式将scala庫導入。之後開發scala程式即可:

利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)

編寫完scala程式後,可以直接在intellij中,以local模式運作,方法如下:

利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)

點選“Run”–> “Run Configurations”,在彈出的框中對應欄中填寫“local”,表示将該參數傳遞給main函數,如下圖所示,之後點選“Run”–> “Run”運作程式即可。

如果想把程式打成jar包,通過指令行的形式運作在spark 叢集中,可以按照以下步驟操作:

依次選擇“File”–> “Project Structure” –> “Artifact”,選擇“+”–> “Jar” –> “From Modules with dependencies”,選擇main函數,并在彈出框中選擇輸出jar位置,并選擇“OK”。

最後依次選擇“Build”–> “Build Artifact”編譯生成jar包。具體如下圖所示。

利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)
利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)
利用Intellij IDEA建構Spark開發環境(包括scala環境的搭建)

轉載自:http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/

繼續閱讀