重磅釋出，阿裡雲全鍊路資料湖開發治了解決方案

阿裡雲重磅更新全鍊路資料湖解決方案，主要包含開源大資料平台E-MapReduce(EMR) + 一站式大資料資料開發治理平台DataWorks + 資料湖建構DLF + 對象存儲OSS等核心産品。

近日，阿裡雲EMR重磅推出新版資料湖Datalake，100%相容社群大資料開源元件，具備極強的彈性能力，支援D資料湖建構DLF，資料湖存儲OSS和OSS-HDFS，支援Delta Lake、Hudi、Iceberg三種湖格式。同時新版本Datalake對接阿裡雲一站式大資料開發治理平台DataWorks，沉澱阿裡巴巴十多年大資料建設方法論，為客戶完成從入湖、模組化、開發、排程、治理、安全等全鍊路資料湖開發治理能力，幫助客戶提升資料的應用效率。

另外，解決方案提供了“統一進制資料管理、資料入湖、資料存儲、緩存加速、彈性計算、容器、資料分析、任務編排、運維管理，以及安全”等全面資料湖能力。通過了工業和資訊化部中國資訊通信研究院大資料能力專項評測，榮獲“雲原生資料湖基礎能力專項評測證書”。

阿裡雲全鍊路資料湖開發治了解決方案架構

阿裡雲全鍊路資料湖開發治了解決方案使用OSS/OSS–HDFS作為資料湖存儲，DLF作為資料湖建構和管理工具，JindoFS進行湖緩存加速，EMR作為彈性計算引擎進行湖計算，DataWorks進行資料開發和治理。DataWorks各子產品與DataLake深度內建，進而實作一站式資料湖開發治理。

EMR新版資料湖叢集

核心運維管控能力介紹

彈性能力

彈性伸縮支援按叢集負載和按時間2種模式
彈性伸縮組支援多種執行個體規格
支援搶占式執行個體（相較按量付費成本降低80%以上）
支援成本優化模式（彈性比例的按量付費+包年包月）

叢集管控能力

分鐘級别建立和擴容叢集，無需手動部署和啟動服務
完善的叢集監控和告警體系，覆寫硬體和引擎服務，支援配置告警模闆

新版資料湖對比Hadoop叢集優勢

性能更優

速度加快

新版資料湖叢集節點組擴容速度得到明顯提升，單批次大規模節點擴容速度提升80%

Hadoop	DataLake
彈性擴容 10 節點	4分鐘	1分10秒
彈性擴容 50 節點	8分鐘	1分30秒
彈性擴容 100節點	10分鐘	1分50秒

支援并發

支援任務節點（task節點類型）多節點組并行擴縮容，能夠覆寫多種使用場景，業務效率成倍提升。

功能更全

彈性伸縮能力更強

可以同時配置按時間伸縮和按負載伸縮；支援優先下線負載低的節點；配置規則不依賴于是否運作彈性伸縮活動，可靈活修改配置（僅影響下一次觸發）。

執行邏輯更貼近使用場景

多方位調研使用者真實使用場景，功能執行邏輯設計更貼近業務實際。如：

1）彈性伸縮擴容政策支援多執行個體選擇并按順序彈出（兜底庫存不足場景），彈性伸縮縮容支援配置優雅下線并預設按負載選擇目标節點下線（減少縮容時對叢集任務影響）

2）同一節點組多個彈性規則同時觸發時，預設按照使用者規則排序依次生效（靈活應對多種使用場景）

操作體驗優化

更豐富的配置提示和操作引導，并新增配置項預校驗邏輯，降低使用者學習成本和操作失敗機率。

成本更省

彈性伸縮性能更優，功能覆寫更廣泛的場景

彈性伸縮生效更快，支援功能更全。可以幫助使用者更快更好地對硬體資源進行靈活管理，根據業務需要設定相關政策，自動變更叢集規模，減少硬體資源浪費。

通過靈活配置搶占式執行個體進一步壓縮成本

在新增節點組時，提供完善的搶占式執行個體配置政策和兜底政策供使用者配置，使用者可以根據其業務訴求靈活配置，通過配置搶占式執行個體能夠進一步壓縮成本。

與Hadoop叢集全面對比

子產品	功能項	新版資料湖叢集	Hadoop叢集
叢集	叢集建立時間	平均時間小于5分鐘。	平均時間小于10分鐘。
叢集節點組新增節點	平均時間小于3.5分鐘。	平均時間小于10分鐘。
開放API	支援。	支援。
域名支援	Private Zone。	hosts位址映射。
磁盤擴容	支援熱擴容，無需重新開機叢集服務。	不支援熱擴容，需重新開機叢集服務生效。
節點組	交換機	可以在建立節點組時選擇交換機。	僅支援在叢集建立時選擇，叢集建立後不可更改。
挂載公網	可以在建立叢集的硬體配置頁面的執行個體區域，選擇是否為節點組開啟公網。沒有節點組類型的限制。	僅支援在叢集建立時選擇是否開啟公網，建立後如果您需要使用公網IP位址通路，請在ECS上申請開通公網IP位址，詳情請參見彈性公網IP中的申請EIP的内容。僅支援Master節點組挂載公網。
附加安全組	支援。	不支援。
部署集	可以在建立叢集硬體配置頁面的執行個體區域，選擇是否開啟部署集開關。可以在新增Core節點組時，選擇是否開啟部署集開關。	功能受限。
節點組狀态	支援。	不支援。
混合節點	支援同規格的不同機型混合。	僅支援同規格機型。彈性伸縮節點支援混合節點。
彈性伸縮	彈性伸縮	彈性伸縮與節點組解耦，從獨立的功能子產品轉為節點組操作，使用更加便捷。	需要專用的彈性伸縮組，該節點組不可進行手動擴縮容。
伸縮規則	配置規則不依賴于是否運作彈性伸縮活動，可靈活修改配置（僅影響下一次觸發）。同一節點組多個規則同時觸發時，會按照使用者規則排序依次生效。	配置規則受到彈性伸縮狀态限制，修改後無法立即生效。同一節點組多個規則同時觸發時，随機生效。
伸縮記錄	豐富了彈性伸縮記錄資訊。在檢視詳情頁面新增了觸發規則快照和執行結果參數，能夠快速檢視觸發原因和變更節點資訊。	提供基礎的伸縮記錄清單。
名額采集頻率	每30秒采集一次。	每30秒采集一次。
伸縮活動生效時間	規則應用後1~30秒。	規則應用後1~2分鐘。
擴縮容	擴縮容活動	彈性伸縮活動與手動擴縮容活動運作機制相同。差別僅在于觸發條件不同：彈性伸縮需要彈性伸縮規則觸發。手動擴縮容需要人為觸發。支援暫停彈性伸縮活動。多個Task節點組的擴縮容活動彼此獨立，互不影響。彈性縮容根據節點負載和建立時間，智能選中目标節點，減少業務影響。	彈性伸縮活動和手動擴縮容活動是兩套機制，互不相容。彈性伸縮活動不支援暫停狀态。同時僅支援一個節點組進行（彈性）擴縮容。彈性縮容節點選擇具有随機性。
高可用與軟體應用	高可用	不再支援本地MySQL作為Hive Metastore資料庫。	支援本地MySQL作為Hive Metastore資料庫。
支援部署集，3台Master分布在不同底層硬體以降低硬體風險。	預設不支援部署集。
NameNode與Resource Manager部署于3節點，并不再支援2 Master模式。	Namenode與Resource Manager僅部署于2節點，支援2 Master模式。
叢集應用元件	支援可選	必選 + 可選。
Spark2與Hadoop3組合	支援。	不支援。
Spark3與Hadoop2組合	支援。	EMR-3.38.0之後版本支援同時部署。

DataWorks全鍊路開發治理能力介紹

DataWorks基于EMR-Datalake、EMR-Clickhouse、CDP等大資料引擎，為資料湖/資料倉庫/湖倉一體等解決方案提供統一的全鍊路大資料開發治理平台。作為阿裡巴巴資料中台的建設者，DataWorks從2009年起不斷沉澱阿裡巴巴大資料建設方法論，通過智能資料模組化、全域資料內建、高效資料開發、主動資料治理（資料品質、資料地圖等）、全面資料安全、快速分析服務六大全鍊路資料治理的能力，與數萬名政務/金融/零售/網際網路/能源/制造等客戶攜手，助力産業數字化更新。

智能資料模組化

DataWorks智能資料模組化沉澱阿裡巴巴資料中台模組化方法論，以次元模組化為基礎，從數倉規劃、資料标準、次元模組化、資料名額四個方面，以業務視角對業務的資料進行诠釋，讓資料倉庫的建設向規範化，可持續發展方向演進。針對Datalake的智能資料模組化能力将在2022年8月份正式釋出。

全域資料內建

DataWorks資料內建是開源DataX的商業化團隊，在資料湖場景下支援50+種資料源之間的離線同步，包含資料湖常見的HDFS、Hive、HBase、OSS、Kafka等資料源，MySql、Oracle、SQLServer等資料庫。同時，針對IDC>>雲上、雲廠商>>雲廠商、雲産品>>雲産品、雲賬号>>雲賬号等各種同步場景，提供網絡連通的解決方案，讓客戶在複雜網絡環境、豐富的異構資料源之間，依舊保持高速穩定的資料移動能力。

高效資料開發

DataWorks資料開發（DataStudio）與運維中心面向EMR-Datalake、EMR-CK、CDH等引擎，提供可視化開發的主界面，賦予使用者智能代碼開發、多引擎混編工作流、規範化任務釋出的強大能力，幫助使用者輕松建構資料湖、離線數倉、實時數倉與即席分析系統，保證資料生産的高效與穩定。

資料開發-核心開發排程能力

支援EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八種節點。
遠超開源的超大規模排程穩定能力（雙11單日千萬級任務執行個體）
分鐘/小時/天/周/月多種排程周期
業務流程全局參數/節點上下文傳參

資料開發-多種可視化資料對象管理及控制節點

可視化資源檔案上傳（HDFS/OSS）
可視化管理UDF（Java）
可視化建表（支援HDFS/OSS）
歸并、指派、順序、循環、分支等控制節點。
多種排程周期混合編排
可視化業務流程編排

資料開發-智能SQL編輯器

文法高亮
關鍵詞自動補全
表/字段資訊提示
函數資訊提示

任務運維-運作診斷

運作診斷可幫助使用者快速定位任務出錯原因，例如

上遊依賴未完成
排程資源不足
資料品質規則攔截
基線破線

同時擁有補資料相關能力，友善使用者快速處理運維情況。在告警方面，運維中心支援多種告警方式

支援Webhook（釘釘、微信、飛書）、電話、短信、郵件等多管道告警
支援基于值班表配置告警人員，

任務運維-智能基線

智能基線是DataWorks獨創的監控技術，具備國家專利，使用者無需配置每個任務的告警時間，僅需配置最終産出節點的告警時間，智能基線會基于曆史的任務運作情況，在核心任務可能無法準時産出時，做提前告警，保障核心任務的生産穩定。

主動資料治理

DataWorks資料治理包含資料治理中心、資料品質、資料地圖等多個産品，覆寫事前、事中、事後的資料生命周期，通過資料治理健康分、品質規則、資料大血緣等能力，将書面的資料治理規範落地成平台化的産品能力，讓資料治理不再一個 “階段性項目”，而是一個“可持續的營運項目”。

資料品質

EMR HIVE節點支援DataWorks資料品質規則，内置37種資料品質規則模闆，可以進行可視化、批量資料品質規則配置，提高資料品質規則配置效率。同時該子產品與資料開發排程深度內建，可通過排程觸發規則運作，節省計算資源，及時發現問題。

支援37種内置資料品質模闆規則
支援批量配置規則、規則模闆
支援綁定排程引擎并在品質報警時阻塞業務流程
支援動态門檻值（頂會論文技術，算法自動判定告警門檻值）
支援SQL自定義規則
支援短信、郵件、釘釘告警
支援自定義資料品質報告
支援品質問題處理記錄

同時，資料品質支援強弱規則設定，進行靈活的運維控制。

強規則，直接阻塞下遊任務運作，防止問題資料污染下遊，浪費下遊執行的計算資源
弱規則，隻告警，不阻塞任務運作，針對一些非核心任務。

資料地圖

資料地圖支援完整的EMR-Datalake中繼資料體系，可以針對表名、字段名進行快速搜尋，基于表、字段血緣浏覽上下遊關系快速找表，包括：

支援表基礎資訊、業務描述資訊、産出資訊等
支援分區、字段的明細資訊與變更記錄
支援表的産出資訊解析（包括對表寫入資料或者建立分區的排程任務）
支援表、字段的血緣資訊解析（實時解析）
支援對表進行分級分類、收藏等操作
支援全局檢索、按類目導航檢索、按類目過濾

表基礎資訊：

表血緣資訊：

全面資料安全

在資料安全方面，DataWorks支援Datalake引擎資料全生命周期的安全管理。包括以下5個方面：

資料傳輸安全

資料源通路控制

資料存儲安全

存儲加密
資料備份

資料處理安全

Ranger精細化資料授權管控

規範化開發流程，開發環境、生産環境執行身份獨立管理

資料交換安全

資料脫敏

通用資料安全

RBAC權限模型

操作行為審計

LDAP認證管理

快速分析服務

SQL查詢：完善的SQL查詢編輯器，支援即席查詢Hive、SparkSQL、Impala

電子表格：即席分析資料，Web類型的Excel

資料服務：低代碼快速搭建ClickHouse API

開通購買

快速開通使用

快速入門：https://help.aliyun.com/document_detail/445672.html

遷移助手

排程任務遷移

支援Airflow，Oozie，Azkaban工作流遷移
支援EMR資料開發一鍵遷移至DataWorks
工作空間之間各種資料對象遷移

重磅釋出，阿裡雲全鍊路資料湖開發治了解決方案

阿裡雲全鍊路資料湖開發治了解決方案架構

EMR新版資料湖叢集

核心運維管控能力介紹

彈性能力

叢集管控能力

新版資料湖對比Hadoop叢集優勢

性能更優

功能更全

成本更省

與Hadoop叢集全面對比

DataWorks全鍊路開發治理能力介紹

智能資料模組化

全域資料內建

高效資料開發

主動資料治理

全面資料安全

快速分析服務

開通購買

快速開通使用

遷移助手

排程任務遷移

繼續閱讀

Linux下ssh秘鑰方式登入遠端伺服器

Linux指令集錦：scp指令一、文法二、執行個體

docker 指令集錦

LINUX常見指令集錦

windows開始→運作→輸入的指令集錦 winver---------檢查Windows版本 w

更改LYNC SIP位址

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

詳解STM32單片機的堆棧