天天看點

Zeppelin介紹與入門實踐

  1. 介紹

     Zeppelin是一個Web筆記形式的互動式資料查詢分析工具,可以線上用scala和SQL對資料進行查詢分析并生成報表。Zeppelin的背景資料引擎可以是Spark(目前隻有Spark),開發者可以通過實作更多的解釋器來為Zeppelin添加資料引擎。官方支援的執行引擎用一幅圖可以清晰描述

    執行引擎的作用就是執行筆記中的與引擎相對應的代碼,不同的引擎也會有不同的配置,引擎的詳細說明參考官方文檔:http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html
    Zeppelin介紹與入門實踐
  2. 安裝

    為了快速使用Zeppelin,可下載下傳官方編譯好的可執行版本,該版本包括兩種類型,完整Interpreter版本,基礎Interpreter版,下載下傳基礎版本即可,以後如有需要,可對Interpreter進行單獨安裝。

    下載下傳位址:http://zeppelin.apache.org/download.html。安裝以及啟動步驟如下

    1. 解壓縮壓縮包
    2. 啟動程序:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
    3. 通路頁面:http://localhost:8080
    4. 停止程序:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
  3. 操作
    1. 運作官方例子

      官方提供了一個使用Spark執行引擎的例子,詳細步驟如下

      1. Zeppelin啟動之後,可以看到Zeppelin本身提供的Tutorial。點選“Create new note”建立新的筆記,名字叫Spark Sample
      2. 将測試檔案放到hdfs叢集上:bank.zip.
      3. 配置Spark的執行引擎,本例采用一個測試叢集,修改的配置如下:
        Zeppelin介紹與入門實踐
      4. 将Spark sample 的筆記綁定執行spark引擎
        Zeppelin介紹與入門實踐
      5. 輸入測試代碼,觀察效果,代碼從http://zeppelin.apache.org/docs/0.6.2/quickstart/tutorial.html 進行拷貝,效果如下:
        Zeppelin介紹與入門實踐
    2. 添加Interpreter

      預設提供的執行引擎可能不能滿足使用者的需求,此時可以通過指令進行擴充,以添加HDFS引擎為例:

      1. 執行:zeppelin-0.6.2-bin-netinst/bin# ./install-interpreter.sh --name file
      2. 重新開機:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh restart
      3. 配置引擎:
        Zeppelin介紹與入門實踐
      4. 将引擎綁定到筆記
      5. 執行ls命名
        Zeppelin介紹與入門實踐