Hadoop - Zeppelin 使用心得1.概述2.How to do3.How to use4.總結5.結束語

　　在編寫 flink，spark，hive 等相關作業時，要是能快速的将我們所編寫的作業能可視化在我們面前，是件讓人興奮的時，如果能帶上趨勢功能就更好了。今天，給大家介紹這麼一款工具。它就能滿足上述要求，在使用了一段時間之後，這裡給大家分享以下使用心得。

　　對于 zeppelin 而言，并不依賴 hadoop 叢集環境，我們可以部署到單獨的節點上進行使用。首先我們使用以下位址擷取安裝包：

　　這裡，有2種選擇，其一，可以下載下傳原檔案，自行編譯安裝。其二，直接下載下傳二進制檔案進行安裝。這裡，為了友善，筆者直接使用二進制檔案進行安裝使用。

這裡有些參數需要進行配置，為了保證系統正常啟動，確定的 zeppelin.server.port

　　在完成上述步驟後，啟動對應的程序。定位到 zeppelin 安裝目錄的bin檔案夾下，使用以下指令啟動程序：

　　若需要停止，可以使用以下指令停止程序：

　　另外，通過閱讀 zeppelin-daemon.sh 腳本的内容，可以發現，我們還可以使用相關重新開機，檢視狀态等指令。内容如下：

　　在啟動相關程序後，可以使用以下位址在浏覽器中通路：

　　啟動之後的界面如下所示：

　　該界面羅列出插件綁定項。如圖中的 spark，md，sh 等。那我如何使用這些來完成一些工作。在使用一些資料引擎時，如

flink，spark，hive 等，是需要配置對應的連接配接資訊的。在 interpreter 欄處進行配置。這裡給大家列舉一些配置示例：

　　可以找到 flink 的配置項，如下圖所示：

　　然後指定對應的 ip 和位址即可。

　　這裡 hive 配置需要指向其 thrift 服務位址，如下圖所示：

　　另外，其他的插件，如 spark，kylin，phoenix等配置類似，配置完成後，記得點選 “restart” 按鈕。

　　下面，我們可以建立一個 notebook 來使用，我們拿最簡單的 shell 和 markdown 來示範，如下圖所示：

　　當然，我們的目的并不是僅僅使用 shell 和 markdown，我們需要能夠使用 sql 來擷取我們想要的結果。

　　下面，我們使用 spark sql 去擷取想要的結果。如下圖所示：

　　這裡，可以将結果以不同的形式來可視化，量化，趨勢，一目了然。

　　另外，可以使用動态格式來查詢分區資料，以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式進行表示。如下圖所示：

　　在使用的過程當中，有些地方需要注意，必須在編寫 hive sql 時，%hql 需要替換為 %hive.sql 的格式；另外，在運作 scala 代碼時，如果出現以下異常，如下圖所示：

　　解決方案，在 zeppelin-env.sh 檔案中添加以下内容：

　　該 bug 在 0.5.6 版本得到修複，參考碼：［zeppelin-305］

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行讨論或發送郵件給我，我會盡我所能為您解答，與君共勉！

繼續閱讀