Zeppelin介绍与入门实践

2023-06-29 06:14:51

介绍

Zeppelin是一个Web笔记形式的交互式数据查询分析工具，可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark（目前只有Spark），开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述
执行引擎的作用就是执行笔记中的与引擎相对应的代码，不同的引擎也会有不同的配置，引擎的详细说明参考官方文档：http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html

Zeppelin介绍与入门实践
安装

为了快速使用Zeppelin，可下载官方编译好的可执行版本，该版本包括两种类型，完整Interpreter版本，基础Interpreter版，下载基础版本即可，以后如有需要，可对Interpreter进行单独安装。

下载地址：http://zeppelin.apache.org/download.html。安装以及启动步骤如下
1. 解压缩压缩包
2. 启动进程：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
3. 访问页面：http://localhost:8080
4. 停止进程：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
操作
1. 运行官方例子
  
  官方提供了一个使用Spark执行引擎的例子，详细步骤如下
2. 1. Zeppelin启动之后，可以看到Zeppelin本身提供的Tutorial。点击“Create new note”创建新的笔记，名字叫Spark Sample
  2. 将测试文件放到hdfs集群上：bank.zip.
  3. 配置Spark的执行引擎，本例采用一个测试集群，修改的配置如下：
    
    Zeppelin介绍与入门实践
  4. 将Spark sample 的笔记绑定执行spark引擎
    
    Zeppelin介绍与入门实践
  5. 输入测试代码，观察效果，代码从http://zeppelin.apache.org/docs/0.6.2/quickstart/tutorial.html 进行拷贝，效果如下：
    
    Zeppelin介绍与入门实践
3. 添加Interpreter
  
  默认提供的执行引擎可能不能满足用户的需求，此时可以通过命令进行扩展，以添加HDFS引擎为例:
4. 1. 执行：zeppelin-0.6.2-bin-netinst/bin# ./install-interpreter.sh --name file
  2. 重启：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh restart
  3. 配置引擎：
    
    Zeppelin介绍与入门实践
  4. 将引擎绑定到笔记
  5. 执行ls命名
    
    Zeppelin介绍与入门实践

Zeppelin介绍与入门实践

继续阅读

将数据导入Hive数据库中，使用python链接Hive读取数据库，转化成pandas的dataframe

左连接/右连接实例

oozie HDFS demo

Programming Styles

【hadoop fs命令】if，then，else，fi测试

初识hadoop--（2）通过java操作hdfs

Hive（二）--分区分桶，内部表外部表

MapReduce的输入与输出类型详解

flume采集文件到hdfs

大数据开发之Flume实践

flume实时写数据到HA模式下的hdfs

EXCEL VBA笔记

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount