-
介绍
Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述
执行引擎的作用就是执行笔记中的与引擎相对应的代码,不同的引擎也会有不同的配置,引擎的详细说明参考官方文档:http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html -
安装
为了快速使用Zeppelin,可下载官方编译好的可执行版本,该版本包括两种类型,完整Interpreter版本,基础Interpreter版,下载基础版本即可,以后如有需要,可对Interpreter进行单独安装。
下载地址:http://zeppelin.apache.org/download.html。安装以及启动步骤如下
-
- 解压缩压缩包
- 启动进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
- 访问页面:http://localhost:8080
- 停止进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
- 操作
-
-
运行官方例子
官方提供了一个使用Spark执行引擎的例子,详细步骤如下
-
- Zeppelin启动之后,可以看到Zeppelin本身提供的Tutorial。点击“Create new note”创建新的笔记,名字叫Spark Sample
- 将测试文件放到hdfs集群上:bank.zip.
- 配置Spark的执行引擎,本例采用一个测试集群,修改的配置如下:
- 将Spark sample 的笔记绑定执行spark引擎
- 输入测试代码,观察效果,代码从http://zeppelin.apache.org/docs/0.6.2/quickstart/tutorial.html 进行拷贝,效果如下:
-
添加Interpreter
默认提供的执行引擎可能不能满足用户的需求,此时可以通过命令进行扩展,以添加HDFS引擎为例:
-
- 执行:zeppelin-0.6.2-bin-netinst/bin# ./install-interpreter.sh --name file
- 重启:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh restart
- 配置引擎:
- 将引擎绑定到笔记
- 执行ls命名
-