Windows ，PySpark 访问远程 Hive 环境搭建

2023-06-04 16:03:50

Java环境配置

安装`JDK`,配置环境变量 `JAVA_HOME`,因为 Hadoop 需要依赖 Java 环境

Hadoop环境配置

可以去Apache Hadoop 官网下载需要的 Hadoop 版本,[Apache.Hadoop下载地址][1]
解压,配置 HADOOP_HOME/bin
cmd > hadoop version  验证是否安装成功

Spark环境配置

去Apache.Spark官网下载对应 Hadoop 版本的 Spark,[Spark下载地址][2]
配置 SPARK_HOME
cmd > spark-shell  稍等片刻会出现 Spark 的图形文字,进入到 Spark-Shell 输入界面,说明 Spark安装成功

Pyspark 安装

博主用的是 Windows+pyspark环境,在 PyCharm 的 terminal 终端输入 pip3 install pyspark 即可
新建工程,到这一步已经可以使用pyspark 执行 sparksql了
博主需要的用到 pyspark 去连接远程 hive服务,用 sparksql 跑 hive 的数据
这个时候写好代码直接去跑会报一个错误关于 winutils.exe 的,缺少这个文件,去网上下载一个对应 hadoop版本的 winutils文件放到 hadoop 安装目录的 bin 目录下
bin\hadoop.dll文件 拷贝到 c:\windows\system32下

配置文件

上述的配置可以让你使用sparksql了，但是仍然无法连接到远程hive,和hdfs，需要几个配

Windows ，PySpark 访问远程 Hive 环境搭建

继续阅读

libsvm for python 安装

学习软件测试基础测试第七天

浅谈企业活动中进行数据分析的重要性

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Ambari介绍和架构原理

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

win10本地scala和spark安装安装scala安装spark

在python中创建excel并写入