Windows ，PySpark 通路遠端 Hive 環境搭建

2023-06-04 16:03:50

Java環境配置

安裝`JDK`,配置環境變量 `JAVA_HOME`,因為 Hadoop 需要依賴 Java 環境

Hadoop環境配置

可以去Apache Hadoop 官網下載下傳需要的 Hadoop 版本,[Apache.Hadoop下載下傳位址][1]
解壓,配置 HADOOP_HOME/bin
cmd > hadoop version  驗證是否安裝成功

Spark環境配置

去Apache.Spark官網下載下傳對應 Hadoop 版本的 Spark,[Spark下載下傳位址][2]
配置 SPARK_HOME
cmd > spark-shell  稍等片刻會出現 Spark 的圖形文字,進入到 Spark-Shell 輸入界面,說明 Spark安裝成功

Pyspark 安裝

部落客用的是 Windows+pyspark環境,在 PyCharm 的 terminal 終端輸入 pip3 install pyspark 即可
建立工程,到這一步已經可以使用pyspark 執行 sparksql了
部落客需要的用到 pyspark 去連接配接遠端 hive服務,用 sparksql 跑 hive 的資料
這個時候寫好代碼直接去跑會報一個錯誤關于 winutils.exe 的,缺少這個檔案,去網上下載下傳一個對應 hadoop版本的 winutils檔案放到 hadoop 安裝目錄的 bin 目錄下
bin\hadoop.dll檔案 拷貝到 c:\windows\system32下

配置檔案

上述的配置可以讓你使用sparksql了，但是仍然無法連接配接到遠端hive,和hdfs，需要幾個配

Windows ，PySpark 通路遠端 Hive 環境搭建

繼續閱讀

libsvm for python 安裝

學習軟體測試基礎測試第七天

淺談企業活動中進行資料分析的重要性

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Ambari介紹和架構原理

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

win10本地scala和spark安裝安裝scala安裝spark

在python中建立excel并寫入