阿裡大資料雲原生化實踐，EMR Spark on ACK 産品介紹

開源大資料社群 & 阿裡雲 EMR 系列直播第六期

主題：EMR spark on ACK 産品示範及最佳實踐

講師：石磊，阿裡雲 EMR 團隊技術專家

内容架構：

雲原生化挑戰及阿裡實踐
Spark 容器化方案
産品介紹和示範

直播回放：掃描文章底部二維碼加入釘群觀看回放，或進傳入連結接

https://developer.aliyun.com/live/246868

一、雲原生化挑戰及阿裡實踐

大資料技術發展趨勢

雲原生化面臨挑戰

計算與存儲分離

如何建構以對象存儲為底座的 HCFS 檔案系統

完全相容現有的 HDFS
性能對标 HDFS，成本降低

shuffle 存算分離

如何解決 ACK 混合異構機型

異構機型沒有本地盤
社群 [Spark-25299] 讨論，支援 Spark 動态資源，成為業界共識

緩存方案

如何有效支援跨機房、跨專線混合雲

需要在容器内支援緩存系統

ACK 排程

如何解決排程性能瓶頸

性能對标 Yarn
多級隊列管理

其他

錯峰排程
Yarnon ACK 節點資源互相感覺

阿裡實踐 - EMR on ACK

整體方案介紹

通過資料開發叢集/排程平台送出到不同的執行平台
錯峰排程，根據業務高峰低峰政策調整
雲原生資料湖架構，ACK 彈性擴縮容能力強
通過專線，雲上雲下混合排程
ACK 管理異構機型叢集，靈活性好

二、Spark 容器化方案

方案介紹

RSS Q&A

1、為什麼需要 Remote Shuffle Service？

RSS 使得 Spark 作業不需要 Executor Pod 挂載雲盤。挂載雲盤非常不利于擴充性和大規模的生産實踐。
雲盤的大小無法事前确定，大了浪費空間，小了 Shuffle 會失敗。RSS 專門為存儲計算分離場景設計。
Executor 将 shuffle 資料寫入了 RSS 系統，RSS 系統來負責管理 shuffle 資料，Executor 空閑後即可以回收。[SPARK-25299]
可以完美支援動态資源，避免資料傾斜的長尾任務拖住 Executor 資源不能釋放。

2、RSS 性能如何，成本如何，擴充性如何？

RSS 對于 shuffle 有很深的優化，專門為存儲與計算分離場景、K8s 彈性場景而設計。
針對 Shufflefetch 階段，可以将 reduce 階段的随機讀變為順序讀，大大提升了作業的穩定性和性能。
可以直接利用原有 K8s 叢集中的磁盤進行部署，不需要加多餘的雲盤來進行 shuffle。成本效益非常高，部署方式靈活。

Spark Shuffle

産生 numMapper * numReducer 個 block
順序寫、随機讀
寫時 Spill
單副本，丢資料需 stage 重算

EMR Remote Shuffle Service

追加寫、順序讀
無寫時 Spill
兩副本；副本複制到記憶體後即完成
副本之間通過内網備份，無需公網帶寬

RSS TeraSort Benchmark

備注說明：以10T Terasort 為例，shuffle 量壓縮後大約 5.6T。可以看出該量級的作業在 RSS 場景下，由于 shuffle read 變為順序讀，性能會有大幅提升。

Spark on ECI 效果

Summary

對應産品介紹和示範，可以掃描文章底部釘釘群二維碼，進群觀看直播回放哦！

也可以點選以下連結直接觀看回放：

後續我們會在釘釘群定期推送精彩案例，邀請更多技術大牛直播分享。歡迎有興趣的同學掃下方二維碼加入釘釘群進行交流和技術分享。關注公衆号，鎖定每周精彩分享内容！

阿裡大資料雲原生化實踐，EMR Spark on ACK 産品介紹

開源大資料社群 & 阿裡雲 EMR 系列直播第六期

一、雲原生化挑戰及阿裡實踐

大資料技術發展趨勢

雲原生化面臨挑戰

計算與存儲分離

shuffle 存算分離

緩存方案

ACK 排程

其他

阿裡實踐 - EMR on ACK

整體方案介紹

二、Spark 容器化方案

方案介紹

RSS Q&A

1、為什麼需要 Remote Shuffle Service？

2、RSS 性能如何，成本如何，擴充性如何？

Spark Shuffle

EMR Remote Shuffle Service

RSS TeraSort Benchmark

Spark on ECI 效果

Summary

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

阿裡大資料雲原生化實踐，EMR Spark on ACK 産品介紹

開源大資料社群 & 阿裡雲 EMR 系列直播 第六期

一、雲原生化挑戰及阿裡實踐

大資料技術發展趨勢

雲原生化面臨挑戰

計算與存儲分離

shuffle 存算分離

緩存方案

ACK 排程

其他

阿裡實踐 - EMR on ACK

整體方案介紹

二、Spark 容器化方案

方案介紹

RSS Q&A

1、為什麼需要 Remote Shuffle Service？

2、RSS 性能如何，成本如何，擴充性如何？

Spark Shuffle

EMR Remote Shuffle Service

RSS TeraSort Benchmark

Spark on ECI 效果

Summary

繼續閱讀

開源大資料社群 & 阿裡雲 EMR 系列直播第六期