本周六下午,上海會場的講師已經準備就緒~
SPARK + AI SUMMIT 2020 中文精華版線上峰會,十四位來自北京、上海、杭州、矽谷的PMC和意見領袖,一一還原英文現場的經典分享。
除 Databricks、Facebook、阿裡巴巴、Intel 、領英等一線廠商的經典應用場景外,還有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇議題及社群生态的最新落地。
點選 詳細議程
7月4日下午議題:

使用 RayOnSpark 在大資料平台上運作新興的人工智能應用
黃凱
Intel 大資料團隊軟體工程師。負責開發基于 Apache Spark 的資料分析和 AI 平台,同時支援企業客戶在大資料平台上建構端到端的深度學習應用。他是大資料和 AI 開源項目 Analytics Zoo 和 BigDL 的核心貢獻者之一。
随着近幾年AI的快速發展,把新興的人工智能技術基于大量生産資料去實際落地的場景和需求也越來越多。Ray是由UC Berkeley RISELab開源的一個能快速和友善建構新興人工智能應用的架構。但我們發現在生産環境中,直接把Ray的程式部署運作在大資料的叢集上并不是一件容易的事,常用的做法會需要兩個不同的叢集去分别運作大資料的應用和人工智能的應用,這樣會增加許多資料傳輸以及叢集維護的開銷。而利用我們開發的 RayOnSpark 功能,使用者能直接在現有的 Apache Hadoop/YARN 叢集上運作各種新興的AI應用,包括分布式神經網絡訓練、可擴充的 AutoML 用于時序預測以及分布式的強化學習等等。本次分享主要為大家介紹開發 RayOnSpark的初衷、實作細節和實際的應用案例。
将基于Ray的可擴充AutoML用于時序預測
黃晟盛
Intel 大資料和 AI 方向的資深軟體架構師,在大資料領域工作超過10年,在AI領域工作超過5年。她是 Apache Spark 的committer 和 PMC member,也是 Big Data + AI 開源項目Analytics-Zoo 和 BigDL 的重要貢獻者。目前,她在 Intel AnalyticsZoo 團隊主要帶領自然語言處理,時序分析和強化學習相關的新功能開發和解決方案建構。
時序預測在現實中有着很廣泛的應用,如通訊網絡品質分析、資料中心日志分析、高價值裝置維護等。雖然傳統方法在時序預測中仍然占據主導地位,機器學習和深度學習正成為新的趨勢。然而建構機器/深度學習應用是一個費力且需要大量專業知識的過程,為了給我們的使用者提供更易用的時序預測工具,我們基于Ray建構了一個分布式AutoML的架構用于自動化時序預測模型的訓練。在這個演講中我們将分享我們的工作以及真實的應用案例和經驗總結。
Apache Spark 3.0 中的 SQL 性能改進概覽
李呈祥
花名司麟,阿裡雲智能EMR團隊進階技術專家,Apache Hive Committer, Apache Flink Committer,目前主要專注于EMR産品中開源計算引擎的優化工作。
Spark 3.0提供了很多新的性能優化,例如dynamic partition pruning和enhanced pushdown,每個優化可能會對某一類型的SQL有較好的效果。由于新特性數量衆多,使用者很難一一深入了解,本次議題主要使用示例介紹這些特性,并解釋其背後的原理以及如何使用提高查詢性能。
using databricks as an analysis platform
章劍鋒
花名簡鋒,開源界老兵,Apache Member,曾就職于 Hortonworks,目前在阿裡巴巴計算平台事業部任進階技術專家,并同時擔任 Apache Tez、Livy 、Zeppelin 三個開源項目的 PMC ,以及 Apache Pig 的 Committer。
過去一年,YipitData 開始将将自己所有的data pipeline遷移到Databricks的spark平台。現在Databricks平台已經幫助YipitData的40多位資料分析師來做資料收集,管理ETL workfow。YipitData的資料分析師可以在無需資料工程師的幫助下自己獨立的管理端到端的data pipeline,包括管理1700多個database,51000張table。
這次的演講會主要講述YipitData基于Databricks的底層資料架構以及資料分析師如何用PySpark來管理自己的workflow。在YipitData,我們逐漸改進抽象我們的data pipeline使得我們的資料分析師可以更加簡單安全的做資料轉換,存儲和清洗。
此外這次演講還會講述我們如何将Airflow整合到Databricks中,使得分析師可以建構健壯的ETL workflow。系統管理者和工程師可以學習到如何利用Databricks平台和Airfow來發現潛在的優化點和創造業務價值。
自适應查詢執行:在運作時加速Spark SQL
王道遠
花名健身,阿裡雲EMR技術專家,Apache Spark活躍貢獻者,主要關注大資料計算優化相關工作。
長期以來,Spark社群一直在持續優化 Spark SQL,希望能生成更高品質的執行計劃。基于代價模型的優化收集資料的各種統計資訊來優化執行計劃,比如選擇更合适的join算法,或是調整join順序。但是,統計資訊可能不是始終保持最新,錯誤的統計資訊有可能導緻選取較差的執行計劃。Spark 3.0新引入的自适應查詢執行優化,會在運作時根據執行過程中收集到的統計資訊,重新優化調整執行計劃。本議題會介紹自适應查詢執行的整體架構,以及自适應查詢針對以往實際使用Spark過程中遇到的一些常見問題的解法。我們會用一些查詢的例子來展示自适應查詢背後的原理。最後,我們會分享使用自适應查詢執行功能在TPC-DS上測出來的性能提升。
Spark“數字人體”AI挑戰賽賽題解析一 Analytics-Zoo 入門
邱鑫
邱鑫,英特爾進階軟體工程師。 BigDL 和Analytics Zoo 的核心貢獻者。
本次直播将教育訓練Spark天池大賽的選手使用英特爾Analytics-Zoo 平台
釘釘群同步直播,歡迎釘釘掃碼加入Apache Spark中國技術交流社群!
對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。
Apache Spark技術交流社群公衆号,微信掃一掃關注