天天看点

Zeppelin介绍与入门实践

  1. 介绍

     Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述

    执行引擎的作用就是执行笔记中的与引擎相对应的代码,不同的引擎也会有不同的配置,引擎的详细说明参考官方文档:http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html
    Zeppelin介绍与入门实践
  2. 安装

    为了快速使用Zeppelin,可下载官方编译好的可执行版本,该版本包括两种类型,完整Interpreter版本,基础Interpreter版,下载基础版本即可,以后如有需要,可对Interpreter进行单独安装。

    下载地址:http://zeppelin.apache.org/download.html。安装以及启动步骤如下

    1. 解压缩压缩包
    2. 启动进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
    3. 访问页面:http://localhost:8080
    4. 停止进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
  3. 操作
    1. 运行官方例子

      官方提供了一个使用Spark执行引擎的例子,详细步骤如下

      1. Zeppelin启动之后,可以看到Zeppelin本身提供的Tutorial。点击“Create new note”创建新的笔记,名字叫Spark Sample
      2. 将测试文件放到hdfs集群上:bank.zip.
      3. 配置Spark的执行引擎,本例采用一个测试集群,修改的配置如下:
        Zeppelin介绍与入门实践
      4. 将Spark sample 的笔记绑定执行spark引擎
        Zeppelin介绍与入门实践
      5. 输入测试代码,观察效果,代码从http://zeppelin.apache.org/docs/0.6.2/quickstart/tutorial.html 进行拷贝,效果如下:
        Zeppelin介绍与入门实践
    2. 添加Interpreter

      默认提供的执行引擎可能不能满足用户的需求,此时可以通过命令进行扩展,以添加HDFS引擎为例:

      1. 执行:zeppelin-0.6.2-bin-netinst/bin# ./install-interpreter.sh --name file
      2. 重启:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh restart
      3. 配置引擎:
        Zeppelin介绍与入门实践
      4. 将引擎绑定到笔记
      5. 执行ls命名
        Zeppelin介绍与入门实践