很多大資料開發工程師,特别是Hadoop初級工程師,經常被如何快速開發和調試Hadoop生态系統各種應用的問題所困擾。Hadoop生态元件衆多,每個元件都有自己的通路方式和開發接口。在以往的開發工作中,開發者需要打開各種終端來調試一個問題,當使用Hive時,需要開啟hive cli終端,此時,如果需要通路HBase中的資料時,又得再開啟一個Hbase的shell終端,然後還需要對spark程式調試時......這還不包括頻繁shell遠端登入hadoop叢集上的Linux系統。
這樣做的結果就是效率就會非常低,尤其是反複調試查詢語句時,需要不斷修改代碼再重複打包上傳。現在,億信華辰實時大資料平台PetaBase-i 提供了一種非常友善的資料可視化開發工具PetaBase UDE,能幫助開發者輕松開發和調試Hadoop中各種應用的資料。
PetaBase UDE幾乎可以支援所有大資料架構,包括HDFS檔案系統的頁面,你可以對hdfs檔案進行增删改查;有HIVE UI界面,你可以在頁面上編寫HiveQL語句,進行資料分析查詢,還有YARN監控及Oozie工作流任務排程頁面等等。PetaBase UDE通過把這些大資料技術棧整合在一起,通過統一的Web UI來通路和管理,可以極大地提高開發者和管理者的工作效率。這裡我們向大家展示一下PetaBase UDE的幾個核心功能:
SQL編輯器
這是SQL開發人員和分析師的智能編輯器,它打通了多個計算引擎如:Spark、Hive和HBase等,使用者可以在編輯器中送出執行SparkSQL、HiveQL進行資料操縱,甚至是查詢其他關系型資料庫資料。編輯器在易用性方面做了一些增強,包括代碼高亮、自動完成、智能提示、SQL助手、代碼格式化、曆史浏覽、結果導出等。

HDFS檔案浏覽器
PetaBase UDE提供了可視化的HDFS檔案系統通路界面,使得對HDFS中的資料的操作完全能夠通過UI界面完成,包括檢視檔案中的内容。使用者可以很友善的浏覽HDFS中的目錄和檔案,并且進行檔案和目錄的建立、複制、删除、下載下傳以及修改權限等操作。
作業浏覽器
PetaBase UDE以可視化的方式向使用者展示任務的執行情況,例如:任務的執行進度、任務的執行狀态(正在運作、成功、失敗、停止),任務的執行時間。選擇具體的某個任務,還能夠顯示該任務的詳細資訊、中繼資料、錯誤日志等。除此之外,PetaBase UDE還提供了關鍵字查找和按照任務執行狀态分類查找的功能。
筆記本編輯
PetaBase UDE提供了一個名叫筆記本的腳本編輯功能,使用者可以通過筆記本執行scala、python或者spark程式,在筆記本中編寫并送出基于各種架構的程式,可極大提高使用者代碼的複用性。在日常資料分析應用中,有時候需要編寫一段代碼或者多個查詢語句,提供給業務方實作某個需求,以供他們需要時使用,這時候就可以在筆記本編輯中開發并儲存,然後将筆記本送出給業務方即可。
筆記本編輯支援絕大部分主流語言,包括:scala、java、hive,spark,R等,還能支援mysql等關系型資料庫的sql語言。如下圖所示,在筆記本編輯器中編寫scala代碼。
或者在筆記本中執行spark程式,如下圖:
PetaBase UDE還有許多非常有趣的功能,限于篇幅,這裡就不一一介紹了,如果你有興趣,歡迎留言或私信。