天天看點

如何快速搭建雲原生企業級資料湖架構及實踐分享

王震,阿裡雲計算平台事業部 開源大資料平台 技術專家

本文根據王震在 2021開源大資料技術線上Meetup#0821 分享整理

直播回放連結:

https://developer.aliyun.com/live/247227

内容架構:

  • 背景介紹
  • 如何使用 DLF資料湖
  • 實操示範

一、背景介紹

什麼是資料湖  

資料湖:以一定規則形式存儲各種類型的資料

  • 結構化資料( Orc 、Parquet )
  • 半結構化資料 ( Json 、Xml )
  • 非結構化資料(圖像 、視訊)

為什麼需要資料湖    

1、資料規模進一步擴大

  • 大資料存儲需要治理
  • 資料治理需要厘清資料依賴關系(血緣)
  • 使用者需要明确大資料整體成本(TCO)

2、資料來源多樣化

  • 事務資料(MySQL, SqlServer)
  • 搜尋資料 (SOLR)
  • 批處理資料 (SPARK, HIVE)

3、資料格式多樣化

  • Parquet / Orc / Avro / Csv / Json / Text

4、資料分析場景多樣化

  • 基于語義的搜尋分析
  • 随機/近實時 OLAP 分析

5、資料分析使用者多元化

  • 分析使用者角色多元化 (開發/測試/資料/BI)
  • 使用者資料通路合規管控訴求

資料湖能做什麼

1、針對資料規模進一步擴大

  • 資料湖提供 【資料血緣】服務
  • 資料湖提供 【資料治理】服務
  • 資料湖幫助使用者明确大資料的整體成本

2、針對資料來源多樣化

  • DLF 提供【統一進制資料】服務

 • 解決多引擎中繼資料一緻性問題

 • 解決中繼資料使用和維護成本問題

3、針對資料格式多樣化

  • DLF 提供【資料入湖/中繼資料爬取】服務

 • 支援 MYSQL/KAFKA 入湖,中繼資料爬取

 • 支援離線/實時入湖, 滿足不同業務時效要求

 • 支援 DELTA/HUDI 等資料湖格式

4、針對資料分析場景多樣化

  • DLF 提供【統一進制資料服務】

 • 可以切換不同引擎 MC/EMR/DDI

 • 資料探索在不同引擎之間一緻

5、針對資料分析使用者多元化

  • 資料湖提供【通路權限控制】服務

• 多引擎下的資料通路集中授權/避免反複授權

• 解決多使用者資料通路合規問題

  • 資料湖提供【通路日志審計】服務

• 解決用使用者資料通路合規審查問題

如何快速搭建雲原生企業級資料湖架構及實踐分享

二、如何使用 DLF 資料湖

資料入湖

1、大量異構外部資料源【資料入湖】服務

  • 全量導入 : 批量入湖一次導入
  • 增量導入 : 實時入湖流失增量導入
如何快速搭建雲原生企業級資料湖架構及實踐分享

2、大量現存Hadoop生态資料 【中繼資料爬取】服務

  • 将資料導入資料湖OSS進行存儲
  • 中繼資料爬取 提取原有資料schema
如何快速搭建雲原生企業級資料湖架構及實踐分享

資料查詢

資料湖【統一進制資料】服務支援多種引擎查詢

  • 使用資料探索(SPARK)對入湖資料進行探查
  • 使用MAXCOMPUTE對資料進行深度複雜加工
  • 使用Databricks DDI專用叢集對資料進行探索
  • 更多引擎支援中…
如何快速搭建雲原生企業級資料湖架構及實踐分享

資料治理

一、使用【權限通路控制】服務控制資料通路

  • 進行 庫/表/列 級别的通路權限設定
  • 統一的中繼資料,隻需要設定一次

二、使用【資料治理】服務明确大資料總成本

  • 日/周/月 級别的存儲使用情況 – 及時釋放過時的大存儲檔案
  • 日/周/月 級别的計算使用情況 – 及時識别資料上的異常計算

三、實操示範

資料湖建構 DLF 體驗連結:

https://dlf.console.aliyun.com/

⭐點選回放連結,直接觀看直播視訊回放,擷取講師執行個體講解:

不錯過每次直播資訊、探讨更多資料湖相關技術問題,歡迎掃碼加入釘釘交流群!

如何快速搭建雲原生企業級資料湖架構及實踐分享

繼續閱讀