天天看點

Windows ,PySpark 通路遠端 Hive 環境搭建

Java環境配置

安裝`JDK`,配置環境變量 `JAVA_HOME`,因為 Hadoop 需要依賴 Java 環境
           

Hadoop環境配置

可以去Apache Hadoop 官網下載下傳需要的 Hadoop 版本,[Apache.Hadoop下載下傳位址][1]
解壓,配置 HADOOP_HOME/bin
cmd > hadoop version  驗證是否安裝成功
           

Spark環境配置

去Apache.Spark官網下載下傳對應 Hadoop 版本的 Spark,[Spark下載下傳位址][2]
配置 SPARK_HOME
cmd > spark-shell  稍等片刻會出現 Spark 的圖形文字,進入到 Spark-Shell 輸入界面,說明 Spark安裝成功
           

Pyspark 安裝

部落客用的是 Windows+pyspark環境,在 PyCharm 的 terminal 終端輸入 pip3 install pyspark 即可
建立工程,到這一步已經可以使用pyspark 執行 sparksql了
部落客需要的用到 pyspark 去連接配接遠端 hive服務,用 sparksql 跑 hive 的資料
這個時候寫好代碼直接去跑會報一個錯誤關于 winutils.exe 的,缺少這個檔案,去網上下載下傳一個對應 hadoop版本的 winutils檔案放到 hadoop 安裝目錄的 bin 目錄下
bin\hadoop.dll檔案 拷貝到 c:\windows\system32下
           

配置檔案

上述的配置可以讓你使用sparksql了,但是仍然無法連接配接到遠端hive,和hdfs,需要幾個配