Zeppelin介紹與入門實踐

2023-06-29 06:14:51

介紹

Zeppelin是一個Web筆記形式的互動式資料查詢分析工具，可以線上用scala和SQL對資料進行查詢分析并生成報表。Zeppelin的背景資料引擎可以是Spark（目前隻有Spark），開發者可以通過實作更多的解釋器來為Zeppelin添加資料引擎。官方支援的執行引擎用一幅圖可以清晰描述
執行引擎的作用就是執行筆記中的與引擎相對應的代碼，不同的引擎也會有不同的配置，引擎的詳細說明參考官方文檔：http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html

Zeppelin介紹與入門實踐
安裝

為了快速使用Zeppelin，可下載下傳官方編譯好的可執行版本，該版本包括兩種類型，完整Interpreter版本，基礎Interpreter版，下載下傳基礎版本即可，以後如有需要，可對Interpreter進行單獨安裝。

下載下傳位址：http://zeppelin.apache.org/download.html。安裝以及啟動步驟如下
1. 解壓縮壓縮包
2. 啟動程序：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
3. 通路頁面：http://localhost:8080
4. 停止程序：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
操作
1. 運作官方例子
  
  官方提供了一個使用Spark執行引擎的例子，詳細步驟如下
2. 1. Zeppelin啟動之後，可以看到Zeppelin本身提供的Tutorial。點選“Create new note”建立新的筆記，名字叫Spark Sample
  2. 将測試檔案放到hdfs叢集上：bank.zip.
  3. 配置Spark的執行引擎，本例采用一個測試叢集，修改的配置如下：
    
    Zeppelin介紹與入門實踐
  4. 将Spark sample 的筆記綁定執行spark引擎
    
    Zeppelin介紹與入門實踐
  5. 輸入測試代碼，觀察效果，代碼從http://zeppelin.apache.org/docs/0.6.2/quickstart/tutorial.html 進行拷貝，效果如下：
    
    Zeppelin介紹與入門實踐
3. 添加Interpreter
  
  預設提供的執行引擎可能不能滿足使用者的需求，此時可以通過指令進行擴充，以添加HDFS引擎為例:
4. 1. 執行：zeppelin-0.6.2-bin-netinst/bin# ./install-interpreter.sh --name file
  2. 重新開機：zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh restart
  3. 配置引擎：
    
    Zeppelin介紹與入門實踐
  4. 将引擎綁定到筆記
  5. 執行ls命名
    
    Zeppelin介紹與入門實踐

Zeppelin介紹與入門實踐

繼續閱讀

将資料導入Hive資料庫中，使用python連結Hive讀取資料庫，轉化成pandas的dataframe

左連接配接/右連接配接執行個體

oozie HDFS demo

Programming Styles

【hadoop fs指令】if，then，else，fi測試

初識hadoop--（2）通過java操作hdfs

Hive（二）--分區分桶，内部表外部表

MapReduce的輸入與輸出類型詳解

flume采集檔案到hdfs

大資料開發之Flume實踐

flume實時寫資料到HA模式下的hdfs

EXCEL VBA筆記

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount