王震,阿裡雲計算平台事業部 開源大資料平台 技術專家
本文根據王震在 2021開源大資料技術線上Meetup#0821 分享整理
直播回放連結:
https://developer.aliyun.com/live/247227
内容架構:
- 背景介紹
- 如何使用 DLF資料湖
- 實操示範
一、背景介紹
什麼是資料湖
資料湖:以一定規則形式存儲各種類型的資料
- 結構化資料( Orc 、Parquet )
- 半結構化資料 ( Json 、Xml )
- 非結構化資料(圖像 、視訊)
為什麼需要資料湖
1、資料規模進一步擴大
- 大資料存儲需要治理
- 資料治理需要厘清資料依賴關系(血緣)
- 使用者需要明确大資料整體成本(TCO)
2、資料來源多樣化
- 事務資料(MySQL, SqlServer)
- 搜尋資料 (SOLR)
- 批處理資料 (SPARK, HIVE)
3、資料格式多樣化
- Parquet / Orc / Avro / Csv / Json / Text
4、資料分析場景多樣化
- 基于語義的搜尋分析
- 随機/近實時 OLAP 分析
5、資料分析使用者多元化
- 分析使用者角色多元化 (開發/測試/資料/BI)
- 使用者資料通路合規管控訴求
資料湖能做什麼
1、針對資料規模進一步擴大
- 資料湖提供 【資料血緣】服務
- 資料湖提供 【資料治理】服務
- 資料湖幫助使用者明确大資料的整體成本
2、針對資料來源多樣化
- DLF 提供【統一進制資料】服務
• 解決多引擎中繼資料一緻性問題
• 解決中繼資料使用和維護成本問題
3、針對資料格式多樣化
- DLF 提供【資料入湖/中繼資料爬取】服務
• 支援 MYSQL/KAFKA 入湖,中繼資料爬取
• 支援離線/實時入湖, 滿足不同業務時效要求
• 支援 DELTA/HUDI 等資料湖格式
4、針對資料分析場景多樣化
- DLF 提供【統一進制資料服務】
• 可以切換不同引擎 MC/EMR/DDI
• 資料探索在不同引擎之間一緻
5、針對資料分析使用者多元化
- 資料湖提供【通路權限控制】服務
• 多引擎下的資料通路集中授權/避免反複授權
• 解決多使用者資料通路合規問題
- 資料湖提供【通路日志審計】服務
• 解決用使用者資料通路合規審查問題

二、如何使用 DLF 資料湖
資料入湖
1、大量異構外部資料源【資料入湖】服務
- 全量導入 : 批量入湖一次導入
- 增量導入 : 實時入湖流失增量導入
2、大量現存Hadoop生态資料 【中繼資料爬取】服務
- 将資料導入資料湖OSS進行存儲
- 中繼資料爬取 提取原有資料schema
資料查詢
資料湖【統一進制資料】服務支援多種引擎查詢
- 使用資料探索(SPARK)對入湖資料進行探查
- 使用MAXCOMPUTE對資料進行深度複雜加工
- 使用Databricks DDI專用叢集對資料進行探索
- 更多引擎支援中…
資料治理
一、使用【權限通路控制】服務控制資料通路
- 進行 庫/表/列 級别的通路權限設定
- 統一的中繼資料,隻需要設定一次
二、使用【資料治理】服務明确大資料總成本
- 日/周/月 級别的存儲使用情況 – 及時釋放過時的大存儲檔案
- 日/周/月 級别的計算使用情況 – 及時識别資料上的異常計算
三、實操示範
資料湖建構 DLF 體驗連結:
https://dlf.console.aliyun.com/⭐點選回放連結,直接觀看直播視訊回放,擷取講師執行個體講解:
不錯過每次直播資訊、探讨更多資料湖相關技術問題,歡迎掃碼加入釘釘交流群!