天天看点

Windows下pyspark的环境搭建

写在前面的话~

由于工作中的数据挖掘从sklearn转换到集群了,要开始pyspark了,但是发现市面上无论是pyspark的书籍还是文章,相对sklearn来说,还是太少了,大部分问题只能求助pyspark中的api,所以想记录下平时学习与使用pyspark中的问题。

好了,要想使用pyspark,还是先把本地的本机环境先搭建起来~

Spark需要由JDK,Scala和Hadoop环境的支持,而PySpark则是利用Spark支持Python的特性而将其当作Python的一个包调用,利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs,在使用PySpark的时候,我们需要先完成以下组件的安装

  • 1、Python(推荐使用Anaconda+PyCharm)
  • 2、JDK(本文中使用JDK1.8)
  • 3、Scala(Scala-2.12.8)
  • 4、Spark(Spark 3.0-preview for hadoop-2.7)
  • 5、Hadoop(Hadoop 2.7)
  • 6、winutils.exe
  • 7、Python相关库的安装和设置

1、Python(推荐使用Anaconda+PyCharm)

Python的那种建议使用Anaconda,里面集成很很多常用的包,而且安装后自带的jupyter notebook也挺好用的;

下载路径:

https://www.anaconda.com/​www.anaconda.com

本人安装的是Python3,所以下载也是Python3.7的版本,当然了,我自己电脑是一个更早的版本了,这里只是给大家贴个图哈

Windows下pyspark的环境搭建

安装过程中在这步条件环境变量,其他的一直下一步即可:

Windows下pyspark的环境搭建

pycharm适合做项目的时候用,个人感觉还是非常好用的,当然笨重了点,打开比较慢,另外也很吃内存,直接下载个社区版就可满足使用了

https://www.jetbrains.com/pycharm/download/​www.jetbrains.com

2、JDK(本文中使用JDK1.8)

本文使用的是JDK1.8,各位根据自己需要的版本下载即可

https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html​www.oracle.com

Windows下pyspark的环境搭建

安装完成以后,配置环境变量。配置环境变量的方法为电脑[右键]——>属性——>环境变量,编辑环境变量

配置Java环境变量主要有三个:

JAVA_HOME: E:\Program Files\Java\jdk1.8.0_144\

CLASS_PATH: E:\Program Files\Java\jdk1.8.0_144\lib

Path: E:\Program Files\Java\jdk1.8.0_144\bin

其中Java_Home变量则为Java安装路径,CLASS_PATH可以看成Java安装目录下lib文件目录,Path一般为系统自带变量,修改时直接新增Java安装目录下的bin目录。

一般来讲bin目录下大多是可执行文件,XX_HOME指程序安装目录(下面Scala、Hadoop、spark均需要执行增加Home变量,和bin相关操作)。

Windows下pyspark的环境搭建
Windows下pyspark的环境搭建

Java如果安装成功,则在cmd窗口中分别输入java 和javac,如果均出现如下图所示结果,则表示安装Java成功

Windows下pyspark的环境搭建

3、Scala(Scala-2.12.8)

All Available Versions​www.scala-lang.org

Windows下pyspark的环境搭建

从上面获取对应Spark版本的Scala安装包,我选择了2.12.8版本,windows下直接下载.msi文件安装即可,然后配置环境变量配置好

Windows下pyspark的环境搭建
Windows下pyspark的环境搭建

安装好后运行cmd命令提示符,输入

Scala

后,如果能够正常进入到Scala的交互命令环境则表明安装成功。

Windows下pyspark的环境搭建

4、Spark(Spark 2.1-preview for hadoop-2.7)

spark下载地址在

Downloads | Apache Spark​spark.apache.org

,选择合适的版本安装即可。

Windows下pyspark的环境搭建

spark_home和bin环境变量配置需要设置,和Scala的配置步骤是一样的,就2个地方需要设置,上一张Scala的截图已经有spark的

  • 5、Hadoop(Hadoop 2.7)

由于spark是基于hadoop建立的,所以需要下载Hadoop,这里选择hadoop 2.7,然后下载后放到本地目录,和之前一样,设置相关的2个地方的环境变量即可!

Windows下pyspark的环境搭建
  • 6、winutils.exe

winutil.exe下载位置在

https://github.com/steveloughran/winutils​github.com

其中根据自己的hadoop版本选择对应的winutil.exe文件。这里选择的是hadoop-2.7.1/bin中的winutil.exe文件。

7、Python相关库的安装和设置

1),将spark所在目录下(比如我的是E:\spark\spark-2.1.0-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是E:\Anaconda2\Lib\site-packages)

这里请根据自己情况自行调整!

2),安装py4j库

一般的在cmd命令行下 pip install py4j 就可以

3) 修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\Hive

4)验证pyspark启动

到此 所有的配置工作全部完成,最后再在cmd中输入pyspark,查看反馈。如果出现下面界面,则恭喜你,pyspark安装配置成功。

Windows下pyspark的环境搭建

大功告成啦~~~接下来就开始进入pyspark吧

参考文章:

windows10上配置pyspark工作环境_运维_进击的强强-CSDN博客​blog.csdn.net