天天看點

雲小課|DGC資料開發之基礎入門篇

雲小課|DGC資料開發之基礎入門篇

閱識風雲是華為雲資訊大咖,擅長将複雜資訊多元化呈現,其出品的一張圖(雲圖說)、深入淺出的博文(雲小課)或短視訊(雲視廳)總有一款能讓您快速上手華為雲。更多精彩内容請單擊此處。

摘要:歡迎來到DGC資料開發的世界,花十分鐘跟着雲小課一起學習雲資料開發。本文主要介紹DGC資料開發的基本概念、優勢、應用場景及資料開發的示例,幫助您快速掌握智能資料開發。

本文分享自華為雲社群《【雲小課】EI第36課 DGC資料開發之基礎入門篇(10分鐘掃盲)》,原文作者:閱識風雲

雲小課|DGC資料開發之基礎入門篇

資料湖治理中心 (Data Lake Governance Center,簡稱DGC) ,是具有智能資料管理能力的一站式治理營運平台,包含資料內建、資料開發、規範設計、資料品質監控、資料資産管理、資料服務、資料安全等功能。DGC資料開發又稱資料湖工廠(Data Lake Factory,簡稱DLF),它可管理多種大資料服務,提供一站式的大資料開發環境、全托管的大資料排程能力,極大降低使用者使用大資料的門檻,幫助使用者快速建構大資料進行中心。

使用資料開發子產品,使用者可進行腳本開發、作業開發、作業排程、運維監控等操作,輕松完成整個資料的處理分析流程。

雲小課|DGC資料開發之基礎入門篇
雲小課|DGC資料開發之基礎入門篇

通過資料內建子產品将線下資料遷移到華為雲上,将資料內建到華為雲大資料服務中,并在資料開發子產品中進行資料開發。

雲小課|DGC資料開發之基礎入門篇

通過資料開發子產品實作資料導入、清洗、機器學習、資料回傳、報表生成端到端流程自動化,把業務搬上自動化流水線。

雲小課|DGC資料開發之基礎入門篇

通過資料開發子產品的腳本開發、數倉管理和作業開發功能,快速開發報表所需的腳本以及靈活自動生成BI報表。

雲小課|DGC資料開發之基礎入門篇

通過DIS将日志資料接入到OBS存儲(或者Cloud Search服務),然後通過資料開發子產品服務編寫資料開發腳本和資料挖掘腳本,實作海量日志分析和挖掘。

雲小課|DGC資料開發之基礎入門篇

本節課我們将通過DLF的Hive SQL任務,定期執行腳本統計表資料,當表資料大于某個值發送通知為例進行介紹。

Substep1:通路華為雲管理控制台。

Substep2:單擊管理控制台左上角的符号,選擇區域和項目。

Substep3:在首頁“服務清單”中,選擇“大資料 > 資料湖治理中心DGC”,進入DGC服務的概覽頁面。

資料連接配接用于儲存DLF資料實體的連接配接資訊,本示例需要先建立MRS Hive的資料連接配接,其中綁定的Agent由CDM叢集提供。

Substep1:在DGC控制台的相應的工作空間,單擊“管理中心”,進入資料連接配接頁面。

Substep2:單擊“建立資料連接配接”,彈出“建立資料連接配接”頁面,配置如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep3:單擊“測試”,測試資料連接配接的連通性。如果無法連通,資料連接配接将無法建立。

Substep4:單擊“确定”,建立資料連接配接。

資料連接配接“mrs_hive”建立完成後,需要線上開發SQL腳本,用于查詢MRS Hive表“hive_dt”的資訊。

Substep1:在DGC控制台的頂部導航欄,選擇對應工作空間,單擊“資料開發 > 腳本開發”。

Substep2:單擊“建立SQL腳本 > Hive”,進入腳本開發頁面。

Substep3:選擇腳本的“資料連接配接”為“mrs_hive”、“資料庫”為“hive_db”,輸入如下SQL語句。

select * from hive_dt;

Substep4:單擊“運作”,查詢資料表“hive_dt”,執行結果如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep5:單擊儲存腳本。

雲小課|DGC資料開發之基礎入門篇

Substep6:單擊儲存并送出版本,送出後的腳本在下一步的作業中使用。

腳本“hive_sql”開發完成後,需要通過作業進行編排和排程,實作定期執行腳本,統計MRS Hive表資料的任務。

Substep1:在DGC控制台的頂部導航欄,選擇對應工作空間,單擊“資料開發 > 作業開發”。

Substep2:單擊“建立作業”,彈出“建立作業”頁面,配置如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep3:單擊“确定”,建立作業。

Substep4:進入作業開發頁面,拖動Hive SQL節點任務到畫布并單擊,在右側的“節點屬性”頁面配置如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep5:單擊右側的“排程配置”頁簽,配置排程資訊,如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep6:單擊儲存作業。

Substep7:單擊儲存并送出版本。

雲小課|DGC資料開發之基礎入門篇

送出後的作業可以在作業監控頁面檢視作業的運作情況和結果;

作業每次運作,都會對應産生一次作業執行個體記錄。在執行個體監控頁面,可以檢視作業的執行個體資訊。

作業“job_hive_sql”開發完成後,配置作業的通知任務,當作業運作異常時向相關人員發送通知。

Substep1:登入DGC控制台,進入資料開發子產品。

Substep2:單擊“運維排程 > 通知管理”。

Substep3:在作業的“操作”列,單擊“編輯”,彈出“編輯通知”頁面,配置如下所示。

雲小課|DGC資料開發之基礎入門篇

Substep4:單擊“确定”,完成作業通知配置任務。

作業的排程任務啟動後,可以檢視作業和執行個體任務的運作記錄與結果。

Substep2:單擊“運維排程 > 作業監控”。

Substep3:單擊作業名稱,檢視作業的詳細運作情況。

Substep4:單擊“運維排程 > 執行個體監控”。

Substep5:單擊作業名稱前的,檢視作業運作産生執行個體的詳細運作情況。

好了,本期雲小課就介紹到這裡,學習完本期課程,您是否覺得資料開發竟然這麼簡單呢。哈哈,快去登入華為雲資料湖治理中心Console體驗一下吧,想要了解更多資料開發的知識,猛戳這裡。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀