天天看點

資料剖析更靈活、更快捷,火山引擎 DataLeap 動态探查全面更新

更多技術交流、求職機會,歡迎關注位元組跳動資料平台微信公衆号,回複【1】進入官方交流群

近期,火山引擎 DataLeap 上線“動态探查”能力,為使用者提供全局資料視角、完善的抽樣政策,提高資料探查的靈活度以及響應速率。

傳統的資料探查是基于庫表的全量探查,由後端引擎執行,通過自動化檢查資料成分、關系、格式等,以報告形式展示探查後列的統計分布結果,避免資料品質導緻項目開發、上線出現問題,主要應用于中繼資料管理、資料研發、數倉開發以及資料治理等環節,滿足使用者對資料品質初探的需求。

但在資料量級大、使用者需要探查資料明細或需要資料預處理操作時,由于傳統的資料探查要對全量表進行檢測,導緻無法實時産出報告、等待時間變長,靈活度低,且無法跟蹤資料明細。

針對上述痛點,火山引擎 DataLeap 在傳統資料探查基礎能力上,進一步增強了動态探查能力。其特點在于:

  • 基于大資料預覽探查,支援對資料進行函數級别預處理。
  • 資料探查結果秒級更新、實時響應。
  • 與資料監控關聯,有效打通資料探查到品質分析閉環。

據介紹,DataLeap 動态探查的對象是抽樣資料,支援連續抽樣(按照預設順序連續抽樣前 x 條資料)、過濾抽樣(使用 where 過濾語句過濾)、随機抽樣(随機抽樣 x 條資料)3 種模式,使用者可對資料進行預處理,實時、動态獲得統計分布結果,具備靈活度高、實效性強的特點。

資料剖析更靈活、更快捷,火山引擎 DataLeap 動态探查全面更新

火山引擎 DataLeap 動态探查使用流程

除此之外,DataLeap 動态探查具備對探查結果基礎分析能力,包含列删除、過濾、排序等。使用者對探查結果的每一次操作都會被記作一次操作,多次操作串聯成操作棧,DataLeap 支援使用者自由修改或删減操作棧裡的步驟,并實時檢視最新結果。

資料剖析更靈活、更快捷,火山引擎 DataLeap 動态探查全面更新

火山引擎 DataLeap 動态探查操作棧

資料剖析更靈活、更快捷,火山引擎 DataLeap 動态探查全面更新

火山引擎 DataLeap 資料探查報告

目前,DataLeap 動态探查可以應用在以下三個場景中:

  • 場景 1:用于分析型探查場景,使用者可利用 hive 基本函數,如 get_json_object,将列進行資料提取。
  • 場景 2:與探查報告打通,使用者點選探查報告中的統計值,即可跳轉到資料表格,并應用具體行過濾函數。
  • 場景 3:用于資料過濾後的探查場景,使用者通過過濾和分組條件進行寫條件探查,例如校驗 status=0 時 current_price 為 0 的占比。

DataLeap 是火山引擎數智平台旗下産品,提供資料內建、開發、運維、治理、資産、安全等能力,幫助使用者提升資料研發效率、降低管理成本,加速推動企業的數字化轉型,目前已經應用于泛網際網路、制造、新零售、汽車等領域。

繼續閱讀