在编写 flink,spark,hive 等相关作业时,要是能快速的将我们所编写的作业能可视化在我们面前,是件让人兴奋的时,如果能带上趋势功能就更好了。今天,给大家介绍这么一款工具。它就能满足上述要求,在使用了一段时间之后,这里给大家分享以下使用心得。
对于 zeppelin 而言,并不依赖 hadoop 集群环境,我们可以部署到单独的节点上进行使用。首先我们使用以下地址获取安装包:
这里,有2种选择,其一,可以下载原文件,自行编译安装。其二,直接下载二进制文件进行安装。这里,为了方便,笔者直接使用二进制文件进行安装使用。
这里有些参数需要进行配置,为了保证系统正常启动,确保的 zeppelin.server.port
在完成上述步骤后,启动对应的进程。定位到 zeppelin 安装目录的bin文件夹下,使用以下命令启动进程:
若需要停止,可以使用以下命令停止进程:
另外,通过阅读 zeppelin-daemon.sh 脚本的内容,可以发现,我们还可以使用相关重启,查看状态等命令。内容如下:
在启动相关进程后,可以使用以下地址在浏览器中访问:
启动之后的界面如下所示:

该界面罗列出插件绑定项。如图中的 spark,md,sh 等。那我如何使用这些来完成一些工作。在使用一些数据引擎时,如
flink,spark,hive 等,是需要配置对应的连接信息的。在 interpreter 栏处进行配置。这里给大家列举一些配置示例:
可以找到 flink 的配置项,如下图所示:
然后指定对应的 ip 和地址即可。
这里 hive 配置需要指向其 thrift 服务地址,如下图所示:
另外,其他的插件,如 spark,kylin,phoenix等配置类似,配置完成后,记得点击 “restart” 按钮。
下面,我们可以创建一个 notebook 来使用,我们拿最简单的 shell 和 markdown 来演示,如下图所示:
当然,我们的目的并不是仅仅使用 shell 和 markdown,我们需要能够使用 sql 来获取我们想要的结果。
下面,我们使用 spark sql 去获取想要的结果。如下图所示:
这里,可以将结果以不同的形式来可视化,量化,趋势,一目了然。
另外,可以使用动态格式来查询分区数据,以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式进行表示。如下图所示:
在使用的过程当中,有些地方需要注意,必须在编写 hive sql 时,%hql 需要替换为 %hive.sql 的格式;另外,在运行 scala 代码时,如果出现以下异常,如下图所示:
解决方案,在 zeppelin-env.sh 文件中添加以下内容:
该 bug 在 0.5.6 版本得到修复,参考码:[zeppelin-305]
这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!