天天看点

为Spark集群配置jupyter notebook的Spark kernel

在Jupyter的​​官方github的kernel list​​​里有一个​​sparkmagic​​,安装之后就可以直接在jupyter 中创建Spark、PySpark、PySpark3和SparkR这几种kernel的notebook了。

下面介绍一下安装过程。

安装Livy

sparkmagic是基于Livy的,必须先在集群的master上安装好Livy。

  • 从https://livy.incubator.apache.org/下载livy
  • 将下载的文件解压到你想安装的目录下,假设为/home/livy
  • 将/home/livy/bin 追加到环境变量path中

安装sparkmagic

  • pip install sparkmagic
  • jupyter nbextension enable --py --sys-prefix widgetsnbextension
  • 进入你刚刚用pip安装的sparkmagic包的目录下,运行以下几个命令

    jupyter-kernelspec install sparkmagic/kernels/sparkkernel

    jupyter-kernelspec install sparkmagic/kernels/pysparkkernel

    jupyter-kernelspec install sparkmagic/kernels/pyspark3kernel

    jupyter-kernelspec install sparkmagic/kernels/sparkrkernel

  • jupyter serverextension enable --py sparkmagic

如何使用

  1. 启动spark集群: 终端运行$SPARK_HOME/sbin/start-all.sh
  2. 启动Livy服务:终端运行/home/livy/bin/livy-server
  3. 启动jupyter notebook: 终端运行jupyter notebook
  4. 然后就可以在浏览器中访问到基于master的ip的notebook,并在notebook中创建spark等四种kernel的笔记了

继续阅读