在編寫 flink,spark,hive 等相關作業時,要是能快速的将我們所編寫的作業能可視化在我們面前,是件讓人興奮的時,如果能帶上趨勢功能就更好了。今天,給大家介紹這麼一款工具。它就能滿足上述要求,在使用了一段時間之後,這裡給大家分享以下使用心得。
對于 zeppelin 而言,并不依賴 hadoop 叢集環境,我們可以部署到單獨的節點上進行使用。首先我們使用以下位址擷取安裝包:
這裡,有2種選擇,其一,可以下載下傳原檔案,自行編譯安裝。其二,直接下載下傳二進制檔案進行安裝。這裡,為了友善,筆者直接使用二進制檔案進行安裝使用。
這裡有些參數需要進行配置,為了保證系統正常啟動,確定的 zeppelin.server.port
在完成上述步驟後,啟動對應的程序。定位到 zeppelin 安裝目錄的bin檔案夾下,使用以下指令啟動程序:
若需要停止,可以使用以下指令停止程序:
另外,通過閱讀 zeppelin-daemon.sh 腳本的内容,可以發現,我們還可以使用相關重新開機,檢視狀态等指令。内容如下:
在啟動相關程序後,可以使用以下位址在浏覽器中通路:
啟動之後的界面如下所示:

該界面羅列出插件綁定項。如圖中的 spark,md,sh 等。那我如何使用這些來完成一些工作。在使用一些資料引擎時,如
flink,spark,hive 等,是需要配置對應的連接配接資訊的。在 interpreter 欄處進行配置。這裡給大家列舉一些配置示例:
可以找到 flink 的配置項,如下圖所示:
然後指定對應的 ip 和位址即可。
這裡 hive 配置需要指向其 thrift 服務位址,如下圖所示:
另外,其他的插件,如 spark,kylin,phoenix等配置類似,配置完成後,記得點選 “restart” 按鈕。
下面,我們可以建立一個 notebook 來使用,我們拿最簡單的 shell 和 markdown 來示範,如下圖所示:
當然,我們的目的并不是僅僅使用 shell 和 markdown,我們需要能夠使用 sql 來擷取我們想要的結果。
下面,我們使用 spark sql 去擷取想要的結果。如下圖所示:
這裡,可以将結果以不同的形式來可視化,量化,趨勢,一目了然。
另外,可以使用動态格式來查詢分區資料,以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式進行表示。如下圖所示:
在使用的過程當中,有些地方需要注意,必須在編寫 hive sql 時,%hql 需要替換為 %hive.sql 的格式;另外,在運作 scala 代碼時,如果出現以下異常,如下圖所示:
解決方案,在 zeppelin-env.sh 檔案中添加以下内容:
該 bug 在 0.5.6 版本得到修複,參考碼:[zeppelin-305]
這篇部落格就和大家分享到這裡,如果大家在研究學習的過程當中有什麼問題,可以加群進行讨論或發送郵件給我,我會盡我所能為您解答,與君共勉!