天天看點

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

往期精選合集包 (戳我前往) 囊括了:AI、架構師、 Serverless 、AIoT、DevOps、容器化、機器學習、雲計算、K8s、微服務、雲原生、視覺AI、大資料、小程式、物聯網等各種主題直播合集。

Hologres系列課程(十二)Spark實時寫入Hologres最佳實踐

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐
>>戳我去觀看

直播簡介

本次主要介紹如何通過内置Spark Connector,将多種資料源資料高性能寫入至hologres。

講師介紹

張高迪(杳天),阿裡巴巴開發工程師,長期從事Hologres引擎開發工作

阿裡雲EMR系列直播-EMR spark on ACK産品示範及最佳實踐

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

EMR on ACK是企業級半托管的開源大資料平台,為阿裡雲E-MapReduce(EMR)提供了一個部署選項,允許您在阿裡雲容器服務Kubernetes版 (ACK) 上運作開源大資料架構。 目前支援Spark引擎的部署,結合自研的Remote shuffle service服務元件,提供使用者高穩定、高成本效益、靈活的彈性計算服務。本次直播重點展開了該産品介紹和使用示範。

石磊(砳岩),阿裡雲技術專家

Spark Shuffle RPMem擴充: 借助持久記憶體與RDMA加速Spark 資料分析

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

Spark Shuffle RPMem擴充提供了一個基于PMem 和RDMA 來加速Shuffle的方案,它采用PMem 作為Shuffle的存儲媒體,利用PMDK 使用者态程式設計庫進行資料讀寫,減小使用者态、核心态切換與檔案系統開銷;用基于RDMA網絡協定異構的傳輸層實作高性能資料傳輸;還将RDMA直接注冊在PMem上,減少記憶體拷貝。

本次直播介紹如何利用持久化記憶體與高性能RDMA 網絡來加速Spark Shuffle。

張建,英特爾亞太研發有限公司大資料部門的軟體工程經理,專注于大資料和機器學習中存儲方案優化

OAP Spark 優化介紹: 通過索引和緩存優化互動式查詢性能

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

直播介紹

簡單介紹OAP的總體藍圖。同時詳細介紹其中的一個具體優化,使用索引和緩存來解決互動式查詢性能挑戰。英特爾和社群合作,為Spark SQL實作了索引和資料源緩存,通過為關鍵查詢列建立并存儲完整的B +樹索引,并使用智能的細粒度資料緩存政策,我們可以極大的提升基于Spark SQL的互動式查詢的性能。

陳海鋒,英特爾亞太研發有限公司大資料部門的進階軟體架構師,開發經理,主要研究和關注基于Hadoop和Spark的大資料架構的分析和優化,Apache社群的長期貢獻者。

沈祥翔,英特爾亞太研發有限公司大資料部門的進階軟體工程師,主要擔任OAP項目的開發。

基于Serverless 容器的Spark大資料分析最佳實踐

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

明譽 阿裡雲解決方案架構師

Spark on Apache Zeppelin 

開發者社群精選直播合集(二十二)| Spark與其他産品的實踐

Apache Zeppelin 是一個互動式的大資料開發Notebook,從一開始就是為Spark定制的。Zeppelin Notebook的開發環境與傳統IDE開發環境相比有幾大優勢:不需要編譯Jar,環境配置簡單,互動式開發,資料結果可視化等等。本次直播将會介紹Spark on Zeppelin的一些基本使用方式以及應用場景。

章劍鋒(簡鋒),開源界老兵,Apache Member,曾就職于 Hortonworks,目前在阿裡巴巴計算平台事業部任進階技術專家,并同時擔任 Apache Tez、Livy 、Zeppelin 三個開源項目的 PMC ,以及 Apache Pig 的 Committer。

歡迎持續關注!将持續更新開發者社群精品直播内容!