SPARK + AI SUMMIT 2020 中文精華版線上峰會—7月4日上午議題

就在本周六、日

SPARK + AI SUMMIT 2020 中文精華版線上峰會

，在北美結束第一時間“閃電般快速”為諸位奉上一場技術盛筵。本次活動由阿裡雲開發者社群牽頭，聯合十四位來自北京、上海、杭州、矽谷的PMC和意見領袖，一一還原英文現場的經典分享。

除 Databricks、Facebook、阿裡巴巴、Intel 、領英等一線廠商的經典應用場景外，還有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇議題及社群生态的最新落地。

點選詳細議程

7月4日上午議題：

Apache Spark 3.0簡介：回顧過去的十年，并展望未來

李潇

Databricks Spark 研發部主管，上司 Spark，Koalas，Databricks runtime，OEM的研發團隊。Apache Spark Committer、PMC成員。2011年從佛羅裡達大學獲得獲得了博士學位。曾就職于IBM，獲發明大師稱号(Master Inventor)，是異步資料庫複制和一緻性驗證的領域專家，發表專利十餘篇。(Github: gatorsmile)

我們将分享Apache Spark建立者Matei Zaharia的主題演講，重點介紹Apache Spark 3.0 更易用、更快、更相容的特點。Apache Spark 3.0 延續了項目初心，在SQL和Python API上取得了重大改進；自适應動态優化，使資料處理更易于通路，進而最大限度地減少手動配置。今年也是Spark首次開源釋出的10周年紀念日，我們将回顧該項目及其使用者群是如何增長的，以及Spark周圍的生态系統（如Koalas, Delta Lake 和可視化工具）是如何發展的，共同探讨處理大規模資料的更簡單、更有效的方案。

在Kubernetes上運作Apache Spark：最佳實踐和陷阱

範振

花名辰繁，阿裡雲智能 EMR 團隊進階技術專家。曾在搜狐京東工作，分别參與了 linux 核心、CDN、分布式計算和存儲的研發工作。目前專注于大資料雲原生化工作。

随着spark2.3引入spark on kubernetes以來，越來越多的公司開始關注這一特性。主要的原因一方面是在kubernetes上可以更好地隔離計算資源，另一方面是可以為公司提供一個統一的、雲原生的基礎架構技術棧。但是，如何能夠穩定的、高性能的、省成本的以及安全的使用spark on kubernetes是一個很大的挑戰。這次talk，我們主要談一下在建立Data Mechanics平台（一種serverless形式的spark on kubernetes平台）的過程中積累的經驗教訓。

Structured Streaming生産化實踐及調優

李元健

Databricks軟體工程師。曾于2011年加入百度基礎架構部，先後參與百度自研流式計算、分布式Tracing及批量計算系統的研發工作，2017年轉崗項目經理，負責百度分布式計算平台研發工作。2019年加入Databricks Spark團隊，參與開源軟體及Databricks産品研發。

流式計算作業從研發完成到正式上線的過程中，往往需要做充分的預上線準備。本次分享旨在從如下四個方向入手，以現場demo的形式探讨Structured Streaming生産化實踐及調優：

資料源相關參數：不合理的參數會增大流式作業計算負載，導緻性能降低。
計算狀态參數：不合理的設定導緻無止盡的狀态計算及記憶體耗盡。
資料輸出相關參數：常見的小檔案問題及應對建議。
線上作業的修改：針對已有checkpoint的線上作業修改思路及方案。

Apache Spark 3.0對Prometheus監控的原生支援

周康

花名榆舟，阿裡雲EMR技術專家。開源愛好者，是 Apache Spark/Hadoop/Parquet 等項目的貢獻者。關注大規模分布式計算、排程、存儲等系統，先後從事過 Spark、OLAP、Hadoop Yarn 等相關工作的落地。目前主要專注在 EMR 大資料上雲的相關工作。

Apache Spark實作了一個支援可配置的metrics system，使用者在生産環境中可以将Spark提供的metrics資料（包括driver、executor等）推送到多種Sink。Prometheus是一個開源的分布式監控系統，尤其在雲原生時代被廣泛使用。

Apache Spark也支援以Prometheus作為Sink，将metrics資料推送到Prometheus中來進行監控和報警。目前常見的實作方式有下面幾種：

使用jmx exporter和Spark的JMXSink結合的方式；
使用第三方庫；
實作Sink插件來支援更複雜的metrics；

本次分享會為大家介紹在Apache Spark 3.0中對Prometheus監控的原生支援，包括如何使用Prometheus特性、目前已經實作的metrics、以及如何對structured streaming 作業進行監控等。

釘釘群同步直播，歡迎釘釘掃碼加入Apache Spark中國技術交流社群！

對開源大資料和感興趣的同學可以加小編微信（下圖二維碼，備注“進群”）進入技術交流微信群。

Apache Spark技術交流社群公衆号，微信掃一掃關注

SPARK + AI SUMMIT 2020 中文精華版線上峰會—7月4日上午議題

就在本周六、日

點選詳細議程

7月4日上午議題：

Apache Spark 3.0簡介：回顧過去的十年，并展望未來

在Kubernetes上運作Apache Spark：最佳實踐和陷阱

Structured Streaming生産化實踐及調優

Apache Spark 3.0對Prometheus監控的原生支援

繼續閱讀

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

淺談企業活動中進行資料分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

SPARK + AI SUMMIT 2020 中文精華版線上峰會—7月4日上午議題

就在本周六、日

點選 詳細議程

7月4日上午議題：

Apache Spark 3.0簡介：回顧過去的十年，并展望未來

在Kubernetes上運作Apache Spark：最佳實踐和陷阱

Structured Streaming生産化實踐及調優

Apache Spark 3.0對Prometheus監控的原生支援

繼續閱讀

點選詳細議程