轉自:
https://www.cnblogs.com/eczhou/p/5216918.html http://blog.csdn.net/u011513853/article/details/52865076 Windows下單機安裝Spark開發環境機器:windows 10 64位。
因Spark支援java、python等語言,是以嘗試安裝了兩種語言環境下的spark開發環境。
1、Java下Spark開發環境搭建1.1、jdk安裝
安裝oracle下的jdk,我安裝的是jdk 1.7,安裝完建立系統環境變量JAVA_HOME,變量值為“C:\Program Files\Java\jdk1.7.0_79”,視自己安裝路勁而定。
同時在系統變量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\Program Files\Java\jre7\bin。
1.2 spark環境變量配置
去http://spark.apache.org/downloads.html網站下載下傳相應hadoop對應的版本,我下載下傳的是
spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,對應的hadoop版本是2.6
解壓下載下傳的檔案,假設解壓 目錄為:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量,同時建立SPARK_HOME變量,變量值為:D:\spark-1.6.0-bin-hadoop2.6
1.3 hadoop工具包安裝
spark是基于hadoop之上的,運作過程中會調用相關hadoop庫,如果沒配置相關hadoop運作環境,會提示相關出錯資訊,雖然也不影響運作,但是這裡還是把hadoop相關庫也配置好吧。
1.3.1 去下載下傳hadoop 2.6編譯好的包
https://www.barik.net/archive/2015/01/19/172716/,我下載下傳的是
hadoop-2.6.0.tar.gz,
1.3.2 解壓下載下傳的檔案夾,将相關庫添加到系統Path變量中:D:\hadoop-2.6.0\bin;同時建立HADOOP_HOME變量,變量值為:D:\hadoop-2.6.0
1.4 eclipse環境
直接建立java工程,将D:\spark-1.6.0-bin-hadoop2.6\lib下的spark-assembly-1.6.0-hadoop2.6.0.jar添加到工程中就可以了。
2、Python下Spark開發環境搭建2.1 安裝python,并添加到系統變量path中:C:\Python27和C:\Python27\Scripts
2.2 重複1.2和1.3步驟
2.3 将spark目錄下的pyspark檔案夾(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)複制到python安裝目錄C:\Python27\Lib\site-packages裡
2.4 在cmd指令行下運作pyspark,然後運作pip install py4j安裝相關庫。
2.5 安裝pycharm開始程式設計吧。