Windows下pyspark的环境搭建

写在前面的话~

由于工作中的数据挖掘从sklearn转换到集群了，要开始pyspark了，但是发现市面上无论是pyspark的书籍还是文章，相对sklearn来说，还是太少了，大部分问题只能求助pyspark中的api，所以想记录下平时学习与使用pyspark中的问题。

好了，要想使用pyspark，还是先把本地的本机环境先搭建起来~

Spark需要由JDK，Scala和Hadoop环境的支持，而PySpark则是利用Spark支持Python的特性而将其当作Python的一个包调用，利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs，在使用PySpark的时候，我们需要先完成以下组件的安装

1、Python（推荐使用Anaconda+PyCharm）
2、JDK（本文中使用JDK1.8）
3、Scala（Scala-2.12.8）
4、Spark（Spark 3.0-preview for hadoop-2.7）
5、Hadoop（Hadoop 2.7）
6、winutils.exe
7、Python相关库的安装和设置

1、Python（推荐使用Anaconda+PyCharm）

Python的那种建议使用Anaconda，里面集成很很多常用的包，而且安装后自带的jupyter notebook也挺好用的；

下载路径：

https://www.anaconda.com/www.anaconda.com

本人安装的是Python3，所以下载也是Python3.7的版本，当然了，我自己电脑是一个更早的版本了，这里只是给大家贴个图哈

Windows下pyspark的环境搭建

安装过程中在这步条件环境变量，其他的一直下一步即可：

Windows下pyspark的环境搭建

pycharm适合做项目的时候用，个人感觉还是非常好用的，当然笨重了点，打开比较慢，另外也很吃内存，直接下载个社区版就可满足使用了

https://www.jetbrains.com/pycharm/download/www.jetbrains.com

2、JDK（本文中使用JDK1.8）

本文使用的是JDK1.8，各位根据自己需要的版本下载即可

https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.htmlwww.oracle.com

Windows下pyspark的环境搭建

安装完成以后，配置环境变量。配置环境变量的方法为电脑[右键]——>属性——>环境变量，编辑环境变量

配置Java环境变量主要有三个：

JAVA_HOME: E:\Program Files\Java\jdk1.8.0_144\

CLASS_PATH: E:\Program Files\Java\jdk1.8.0_144\lib

Path: E:\Program Files\Java\jdk1.8.0_144\bin

其中Java_Home变量则为Java安装路径，CLASS_PATH可以看成Java安装目录下lib文件目录，Path一般为系统自带变量，修改时直接新增Java安装目录下的bin目录。

一般来讲bin目录下大多是可执行文件，XX_HOME指程序安装目录（下面Scala、Hadoop、spark均需要执行增加Home变量，和bin相关操作）。

Windows下pyspark的环境搭建

Java如果安装成功，则在cmd窗口中分别输入java 和javac，如果均出现如下图所示结果，则表示安装Java成功

Windows下pyspark的环境搭建

3、Scala（Scala-2.12.8）

All Available Versionswww.scala-lang.org

Windows下pyspark的环境搭建

从上面获取对应Spark版本的Scala安装包，我选择了2.12.8版本，windows下直接下载.msi文件安装即可，然后配置环境变量配置好

Windows下pyspark的环境搭建

安装好后运行cmd命令提示符，输入

Scala

后，如果能够正常进入到Scala的交互命令环境则表明安装成功。

Windows下pyspark的环境搭建

4、Spark（Spark 2.1-preview for hadoop-2.7）

spark下载地址在

Downloads | Apache Sparkspark.apache.org

，选择合适的版本安装即可。

Windows下pyspark的环境搭建

spark_home和bin环境变量配置需要设置，和Scala的配置步骤是一样的，就2个地方需要设置，上一张Scala的截图已经有spark的

5、Hadoop（Hadoop 2.7）

由于spark是基于hadoop建立的，所以需要下载Hadoop，这里选择hadoop 2.7，然后下载后放到本地目录，和之前一样，设置相关的2个地方的环境变量即可！

Windows下pyspark的环境搭建

6、winutils.exe

winutil.exe下载位置在

https://github.com/steveloughran/winutilsgithub.com

其中根据自己的hadoop版本选择对应的winutil.exe文件。这里选择的是hadoop-2.7.1/bin中的winutil.exe文件。

7、Python相关库的安装和设置

1)，将spark所在目录下（比如我的是E:\spark\spark-2.1.0-bin-hadoop2.7\python）的pyspark文件夹拷贝到python文件夹下（我的是E:\Anaconda2\Lib\site-packages）

这里请根据自己情况自行调整！

2)，安装py4j库

一般的在cmd命令行下 pip install py4j 就可以

3) 修改权限

将winutils.exe文件放到Hadoop的bin目录下（我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin），然后以管理员的身份打开cmd，然后通过cd命令进入到Hadoop的bin目录下，然后执行以下命令：

winutils.exe chmod 777 c:\tmp\Hive

4)验证pyspark启动

到此所有的配置工作全部完成，最后再在cmd中输入pyspark，查看反馈。如果出现下面界面，则恭喜你，pyspark安装配置成功。

Windows下pyspark的环境搭建

大功告成啦~~~接下来就开始进入pyspark吧

参考文章：

windows10上配置pyspark工作环境_运维_进击的强强-CSDN博客blog.csdn.net

Windows下pyspark的环境搭建

继续阅读

浅谈企业活动中进行数据分析的重要性

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

ubuntu14.04下安装hbse1.0.1.1

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

User Defined Hadoop DataType

Ambari介绍和架构原理

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

win10本地scala和spark安装安装scala安装spark

在python中创建excel并写入