阿裡雲重磅更新全鍊路資料湖解決方案,主要包含開源大資料平台E-MapReduce(EMR) + 一站式大資料資料開發治理平台DataWorks + 資料湖建構DLF + 對象存儲OSS等核心産品。
近日,阿裡雲EMR重磅推出新版資料湖Datalake,100%相容社群大資料開源元件,具備極強的彈性能力,支援D資料湖建構DLF,資料湖存儲OSS和OSS-HDFS,支援Delta Lake、Hudi、Iceberg三種湖格式。同時新版本Datalake對接阿裡雲一站式大資料開發治理平台DataWorks,沉澱阿裡巴巴十多年大資料建設方法論,為客戶完成從入湖、模組化、開發、排程、治理、安全等全鍊路資料湖開發治理能力,幫助客戶提升資料的應用效率。
另外,解決方案提供了“統一進制資料管理、資料入湖、資料存儲、緩存加速、彈性計算、容器、資料分析、任務編排、運維管理,以及安全”等全面資料湖能力。通過了工業和資訊化部中國資訊通信研究院大資料能力專項評測,榮獲“雲原生資料湖基礎能力專項評測證書”。
阿裡雲全鍊路資料湖開發治了解決方案架構
阿裡雲全鍊路資料湖開發治了解決方案使用OSS/OSS–HDFS作為資料湖存儲,DLF作為資料湖建構和管理工具,JindoFS進行湖緩存加速,EMR作為彈性計算引擎進行湖計算,DataWorks進行資料開發和治理。DataWorks各子產品與DataLake深度內建,進而實作一站式資料湖開發治理。
EMR新版資料湖叢集
核心運維管控能力介紹
彈性能力
- 彈性伸縮支援按叢集負載和按時間2種模式
- 彈性伸縮組支援多種執行個體規格
- 支援搶占式執行個體(相較按量付費成本降低80%以上)
- 支援成本優化模式(彈性比例的按量付費+包年包月)
叢集管控能力
- 分鐘級别建立和擴容叢集,無需手動部署和啟動服務
- 完善的叢集監控和告警體系,覆寫硬體和引擎服務,支援配置告警模闆
新版資料湖對比Hadoop叢集優勢
性能更優
- 速度加快
新版資料湖叢集節點組擴容速度得到明顯提升,單批次大規模節點擴容速度提升80%
Hadoop | DataLake | |
彈性擴容 10 節點 | 4分鐘 | 1分10秒 |
彈性擴容 50 節點 | 8分鐘 | 1分30秒 |
彈性擴容 100節點 | 10分鐘 | 1分50秒 |
- 支援并發
支援任務節點(task節點類型)多節點組并行擴縮容,能夠覆寫多種使用場景,業務效率成倍提升。
功能更全
- 彈性伸縮能力更強
可以同時配置按時間伸縮和按負載伸縮;支援優先下線負載低的節點;配置規則不依賴于是否運作彈性伸縮活動,可靈活修改配置(僅影響下一次觸發)。
- 執行邏輯更貼近使用場景
多方位調研使用者真實使用場景,功能執行邏輯設計更貼近業務實際。如:
1)彈性伸縮擴容政策支援多執行個體選擇并按順序彈出(兜底庫存不足場景),彈性伸縮縮容支援配置優雅下線并預設按負載選擇目标節點下線(減少縮容時對叢集任務影響)
2)同一節點組多個彈性規則同時觸發時,預設按照使用者規則排序依次生效(靈活應對多種使用場景)
- 操作體驗優化
更豐富的配置提示和操作引導,并新增配置項預校驗邏輯,降低使用者學習成本和操作失敗機率。
成本更省
- 彈性伸縮性能更優,功能覆寫更廣泛的場景
彈性伸縮生效更快,支援功能更全。可以幫助使用者更快更好地對硬體資源進行靈活管理,根據業務需要設定相關政策,自動變更叢集規模,減少硬體資源浪費。
- 通過靈活配置搶占式執行個體進一步壓縮成本
在新增節點組時,提供完善的搶占式執行個體配置政策和兜底政策供使用者配置,使用者可以根據其業務訴求靈活配置,通過配置搶占式執行個體能夠進一步壓縮成本。
與Hadoop叢集全面對比
子產品 | 功能項 | 新版資料湖叢集 | Hadoop叢集 |
叢集 | 叢集建立時間 | 平均時間小于5分鐘。 | 平均時間小于10分鐘。 |
叢集節點組新增節點 | 平均時間小于3.5分鐘。 | 平均時間小于10分鐘。 | |
開放API | 支援。 | 支援。 | |
域名支援 | Private Zone。 | hosts位址映射。 | |
磁盤擴容 | 支援熱擴容,無需重新開機叢集服務。 | 不支援熱擴容,需重新開機叢集服務生效。 | |
節點組 | 交換機 | 可以在建立節點組時選擇交換機。 | 僅支援在叢集建立時選擇,叢集建立後不可更改。 |
挂載公網 |
|
| |
附加安全組 | 支援。 | 不支援。 | |
部署集 |
| 功能受限。 | |
節點組狀态 | 支援。 | 不支援。 | |
混合節點 | 支援同規格的不同機型混合。 |
| |
彈性伸縮 | 彈性伸縮 | 彈性伸縮與節點組解耦,從獨立的功能子產品轉為節點組操作,使用更加便捷。 | 需要專用的彈性伸縮組,該節點組不可進行手動擴縮容。 |
伸縮規則 |
|
| |
伸縮記錄 | 豐富了彈性伸縮記錄資訊。在檢視詳情頁面新增了觸發規則快照和執行結果參數,能夠快速檢視觸發原因和變更節點資訊。 | 提供基礎的伸縮記錄清單。 | |
名額采集頻率 | 每30秒采集一次。 | 每30秒采集一次。 | |
伸縮活動生效時間 | 規則應用後1~30秒。 | 規則應用後1~2分鐘。 | |
擴縮容 | 擴縮容活動 |
|
|
高可用與軟體應用 | 高可用 | 不再支援本地MySQL作為Hive Metastore資料庫。 | 支援本地MySQL作為Hive Metastore資料庫。 |
支援部署集,3台Master分布在不同底層硬體以降低硬體風險。 | 預設不支援部署集。 | ||
NameNode與Resource Manager部署于3節點,并不再支援2 Master模式。 | Namenode與Resource Manager僅部署于2節點,支援2 Master模式。 | ||
叢集應用元件 | 支援可選 | 必選 + 可選。 | |
Spark2與Hadoop3組合 | 支援。 | 不支援。 | |
Spark3與Hadoop2組合 | 支援。 | EMR-3.38.0之後版本支援同時部署。 |
DataWorks全鍊路開發治理能力介紹
DataWorks基于EMR-Datalake、EMR-Clickhouse、CDP等大資料引擎,為資料湖/資料倉庫/湖倉一體等解決方案提供統一的全鍊路大資料開發治理平台。作為阿裡巴巴資料中台的建設者,DataWorks從2009年起不斷沉澱阿裡巴巴大資料建設方法論,通過智能資料模組化、全域資料內建、高效資料開發、主動資料治理(資料品質、資料地圖等)、全面資料安全、快速分析服務六大全鍊路資料治理的能力,與數萬名政務/金融/零售/網際網路/能源/制造等客戶攜手,助力産業數字化更新。
智能資料模組化
DataWorks智能資料模組化沉澱阿裡巴巴資料中台模組化方法論,以次元模組化為基礎,從數倉規劃、資料标準、次元模組化、資料名額四個方面,以業務視角對業務的資料進行诠釋,讓資料倉庫的建設向規範化,可持續發展方向演進。針對Datalake的智能資料模組化能力将在2022年8月份正式釋出。
全域資料內建
DataWorks資料內建是開源DataX的商業化團隊,在資料湖場景下支援50+種資料源之間的離線同步,包含資料湖常見的HDFS、Hive、HBase、OSS、Kafka等資料源,MySql、Oracle、SQLServer等資料庫。同時,針對IDC>>雲上、雲廠商>>雲廠商、雲産品>>雲産品、雲賬号>>雲賬号等各種同步場景,提供網絡連通的解決方案,讓客戶在複雜網絡環境、豐富的異構資料源之間,依舊保持高速穩定的資料移動能力。
高效資料開發
DataWorks資料開發(DataStudio)與運維中心面向EMR-Datalake、EMR-CK、CDH等引擎,提供可視化開發的主界面,賦予使用者智能代碼開發、多引擎混編工作流、規範化任務釋出的強大能力,幫助使用者輕松建構資料湖、離線數倉、實時數倉與即席分析系統,保證資料生産的高效與穩定。
資料開發-核心開發排程能力
- 支援EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八種節點。
- 遠超開源的超大規模排程穩定能力(雙11單日千萬級任務執行個體)
- 分鐘/小時/天/周/月多種排程周期
- 業務流程全局參數/節點上下文傳參
資料開發-多種可視化資料對象管理及控制節點
- 可視化資源檔案上傳(HDFS/OSS)
- 可視化管理UDF(Java)
- 可視化建表(支援HDFS/OSS)
- 歸并、指派、順序、循環、分支等控制節點。
- 多種排程周期混合編排
- 可視化業務流程編排
資料開發-智能SQL編輯器
- 文法高亮
- 關鍵詞自動補全
- 表/字段資訊提示
- 函數資訊提示
任務運維-運作診斷
運作診斷可幫助使用者快速定位任務出錯原因,例如
- 上遊依賴未完成
- 排程資源不足
- 資料品質規則攔截
- 基線破線
同時擁有補資料相關能力,友善使用者快速處理運維情況。在告警方面,運維中心支援多種告警方式
- 支援Webhook(釘釘、微信、飛書)、電話、短信、郵件等多管道告警
- 支援基于值班表配置告警人員,
任務運維-智能基線
智能基線是DataWorks獨創的監控技術,具備國家專利,使用者無需配置每個任務的告警時間,僅需配置最終産出節點的告警時間,智能基線會基于曆史的任務運作情況,在核心任務可能無法準時産出時,做提前告警,保障核心任務的生産穩定。
主動資料治理
DataWorks資料治理包含資料治理中心、資料品質、資料地圖等多個産品,覆寫事前、事中、事後的資料生命周期,通過資料治理健康分、品質規則、資料大血緣等能力,将書面的資料治理規範落地成平台化的産品能力,讓資料治理不再一個 “階段性項目”,而是一個“可持續的營運項目”。
資料品質
EMR HIVE節點支援DataWorks資料品質規則,内置37種資料品質規則模闆,可以進行可視化、批量資料品質規則配置,提高資料品質規則配置效率。同時該子產品與資料開發排程深度內建,可通過排程觸發規則運作,節省計算資源,及時發現問題。
- 支援37種内置資料品質模闆規則
- 支援批量配置規則、規則模闆
- 支援綁定排程引擎并在品質報警時阻塞業務流程
- 支援動态門檻值(頂會論文技術,算法自動判定告警門檻值)
- 支援SQL自定義規則
- 支援短信、郵件、釘釘告警
- 支援自定義資料品質報告
- 支援品質問題處理記錄
同時,資料品質支援強弱規則設定,進行靈活的運維控制。
- 強規則,直接阻塞下遊任務運作,防止問題資料污染下遊,浪費下遊執行的計算資源
- 弱規則,隻告警,不阻塞任務運作,針對一些非核心任務。
資料地圖
資料地圖支援完整的EMR-Datalake中繼資料體系,可以針對表名、字段名進行快速搜尋,基于表、字段血緣浏覽上下遊關系快速找表,包括:
- 支援表基礎資訊、業務描述資訊、産出資訊等
- 支援分區、字段的明細資訊與變更記錄
- 支援表的産出資訊解析(包括對表寫入資料 或者 建立分區的排程任務)
- 支援表、字段的血緣資訊解析(實時解析)
- 支援對表進行分級分類、收藏等操作
- 支援全局檢索、按類目導航檢索、按類目過濾
表基礎資訊:
表血緣資訊:
全面資料安全
在資料安全方面,DataWorks支援Datalake引擎資料全生命周期的安全管理。包括以下5個方面:
資料傳輸安全
- 資料源通路控制
資料存儲安全
- 存儲加密
- 資料備份
資料處理安全
Ranger精細化資料授權管控
規範化開發流程,開發環境、生産環境執行身份獨立管理
資料交換安全
資料脫敏
通用資料安全
RBAC權限模型
操作行為審計
LDAP認證管理
快速分析服務
SQL查詢:完善的SQL查詢編輯器,支援即席查詢Hive、SparkSQL、Impala
電子表格:即席分析資料,Web類型的Excel
資料服務:低代碼快速搭建ClickHouse API
開通購買
快速開通使用
快速入門:https://help.aliyun.com/document_detail/445672.html
遷移助手
排程任務遷移
- 支援Airflow,Oozie,Azkaban工作流遷移
- 支援EMR資料開發一鍵遷移至DataWorks
- 工作空間之間各種資料對象遷移