2020年
7月30日
【EMR Spark-SQL性能極緻優化揭秘 Native Codegen Framework】slides:
https://www.slidestalk.com/AliSpark/tfpark55442簡介:
EMR團隊探索并開發了SparkSQL Native Codegen架構,為SparkSQL換了引擎,新引擎帶來最高4倍性能提升,為EMR再次擷取世界第一立下汗馬功勞,本次直播将詳細介紹Native Codegen架構。
講師:周克勇
花名一錘,阿裡巴巴計算平台事業部EMR團隊技術專家,大資料領域技術愛好者,對Spark有濃厚興趣和一定的了解,目前主要專注于EMR産品中開源計算引擎的優化工作。
7月23日
【最好用的資料湖管理平台 E-MapReduce—飛天大資料産品價值解讀】 https://www.slidestalk.com/AliSpark/EMapReduce191196介紹如何在雲上使用E-MapReduce來快速建構企業資料湖的落地方案、客戶的最佳實踐,
希望給大家在雲上建構資料湖帶來一些新的思路。
講師:E-MapReduce産品經理子關
【TFPark: Distributed TensorFlow in Production on Apache Spark】TFPark在Spark叢集中分布式地進行TensorFlow模型的訓練和推斷。本次分享将介紹TFPark的使用,内部實作以及在生産環境中的實際案例。
講師:汪洋
英特爾大資料團隊的機器學習工程師,專注于分布式機器學習架構和應用。他是Analytics Zoo和BigDL的核心貢獻者之一
7月9日
【使用LLVM優化Spark底層實作并內建實時SQL時序資料庫】 https://www.slidestalk.com/AliSpark/llvm_with_sparksql55931為什麼要優化spark時間視窗
未加速前面臨問題
為什麼要使用llvm加速而不是繼續優化jvm codegen
實作介紹-llvm 版本sql引擎設計
如何與spark內建
benchmark資料 vs spark3.0
講師:王太澤
第四範式特征工程資料庫負責人
曾在百度擔任資深研發工程師
一直緻力于解決機器學習模型從離線到線上特征一緻性問題和性能問題。
7月2日
【Hadoop 小檔案/冷檔案分析】 https://www.slidestalk.com/AliSpark/EMRHadoop34590?video龐大的小檔案和冷檔案數量會對HDFS的性能産生不利影響,嚴重時甚至影響業務穩定性,這個主題将介紹對大容量HDFS進行小檔案和冷檔案分析的方法,并基于分析結果可以采取哪些處理措施。
講師:郭聰
花名析源,阿裡雲開放平台事業部技術專家。目前主要從事大資料領域APM産品的研發工作。
6月23日
【半小時,将你的Spark SQL模型變為線上服務】 https://www.slidestalk.com/AliSpark/SparkSQL15193?videoSparkSQL在機器學習場景中應用模型從批量到實時面臨的問題
- SparkSQL 轉換成實時執行成本高
- 離線特征和線上特征保持一緻困難
- 離線效果與線上效果差距大
我們是如何解決這些問題
相對傳統實作方式我們優勢
SparkSQL實時上線demo
一直緻力于解決機器學習模型從
離線到線上特征一緻性問題和性能問題。
6月11日
【JindoFS 存儲政策和讀寫優化】 https://www.slidestalk.com/AliSpark/JindoFS89850本次分享主要介紹資料讀寫在計算存儲分離的場景下所面臨的常見問題以及相關的優化手段,并結合應用場景介紹對資料緩存加速的相關技術和政策。
講師:姚舜揚
花名辰山,阿裡巴巴計算平台事業部 EMR 進階開發工程師,目前從事大資料存儲方面的開發和優化工作
5月21日
【Spark on Zeppelin】 https://www.slidestalk.com/AliSpark/SparkonZeppelin92262?videoApache Zeppelin 是一個互動式的大資料開發Notebook,從一開始就是為Spark定制的。Zeppelin Notebook的開發環境與傳統IDE開發環境相比有幾大優勢:不需要編譯Jar,環境配置簡單,互動式開發,資料結果可視化等等。本次直播将會介紹Spark on Zeppelin的一些基本使用方式以及應用場景。
講師:章劍鋒(簡鋒)
開源界老兵,Apache Member,曾就職于 Hortonworks,目前在阿裡巴巴計算平台事業部任進階技術專家,并同時擔任 Apache Tez、Livy 、Zeppelin 三個開源項目的 PMC ,以及 Apache Pig 的 Committer。
5月14日
【Analytics Zoo上的分布式TensorFlow訓練AI玩FIFA足球遊戲】 https://www.slidestalk.com/AliSpark/fifaaliyunupdated35396近年來,由于對通用人工智能研究的潛在價值,訓練AI玩遊戲一直是一個火熱的研究領域。FIFA實時視訊遊戲場景複雜,需要結合圖像,強化學習等多種不同的AI技術,同時也要求agents響應有實時性,是以是一個非常好的試驗場,可以用來探索不同類型的AI技術。本次分享主要介紹我們在訓練AI玩FIFA視訊遊戲方面的一些工作。
講師:喻杉,
Intel大資料分析團隊機器學習工程師。她目前專注于在analytics-zoo大資料和人工智能平台上開發針對時間序列分析的自動機器學習元件。在加入intel前,她在浙江大學獲得了學士和碩士學位。
5月8日
【JindoFS Fuse 支援】 https://www.slidestalk.com/AliSpark/JindoFSFUSE90042本次直播主要介紹如何利用FUSE的POSIX檔案系統接口,像本地磁盤一樣輕松使用大資料存儲系統, 為雲上AI場景提供了高效的資料通路手段。
講師:蘇昆輝,
花名撫月,阿裡巴巴計算平台事業部 EMR 進階工程師, Apache HDFS committer. 目前從事開源大資料存儲和優化方面的工作。
4月29日
【用Analytics-Zoo實作基于深度學習的胸腔疾病AI診療輔助】 https://www.slidestalk.com/AliSpark/AnalyticsZooAI_v421285本次分享主要介紹如何利用Analytics Zoo和NIH胸部X光影像資料集,在Apache Spark叢集上實作基于深度學習的胸腔疾病分類,為醫生提供端到端的胸腔疾病AI診療輔助。
講師:龔奇源
博士,英特爾機器學習專家。從事多年資料隐私和機器學習研究,2017年加入英特爾,目前負責Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理優化等工作。
4月23日
【大規模檔案中繼資料下的耗時操作優化】 https://www.slidestalk.com/AliSpark/EMR66944本次直播主要介紹大資料生态中常見的中繼資料服務部署形态,并分析大規模檔案中繼資料下在生産環境中可能遇到的問題,以及針對這些問題如何進行優化和調整。
講師:孫大鵬
花名誠曆,阿裡巴巴計算平台事業部 EMR 技術專家,Apache Sentry PMC,Apache Commons Committer,目前從事開源大資料存儲和優化方面的工作。
4月9日
【存儲計算分離場景的計算适應優化】 https://www.slidestalk.com/AliSpark/72146本次分享會介紹雲上大資料處理的存儲計算分離特征,分析傳統大資料進行中資料本地化與存儲計算分離場景的差別,以及在存儲計算分離場景中阿裡雲EMR的相關優化。
講師:王道遠
花名健身,阿裡雲EMR技術專家,Apache Spark活躍貢獻者,主要關注大資料計算優化相關工作。
3月27日
【Office Depot利用Analytics Zoo建構智能推薦系統的實踐分享】 https://www.slidestalk.com/AliSpark/OfficeDepotAnalyticsZoo20200326_KaiHuang54699大量實驗結果表明深度學習能更好地幫助商家為使用者個性化推薦感興趣的商品。Office Depot将Analytics Zoo工具包引入到他們的推薦系統中,在Spark叢集上分布式訓練了各種推薦算法模型,實驗結果相比于傳統的推薦算法有了十分顯著的提升,本次分享主要介紹Office Depot使用Analytics Zoo建構智能推薦系統的實踐經驗。
講師:黃凱
Intel資料分析團隊軟體工程師。負責開發基于Apache Spark的深度學習架構,同時支援企業客戶在大資料平台上建構端到端的深度學習應用。他是Analytics Zoo和BigDL的核心貢獻者之一。
3月19日【
關于 JindoFS 最新的 OTS 方案分享】
https://www.slidestalk.com/AliSpark/EMRJindoFSOTS031967276本次直播主要介紹JindoFS的中繼資料的後端演化。包括JindoFS的架構以及使用場景、JindoFS 中繼資料的不同的後端支援,以及JindoFS 在雲上環境如何支援 OTS 作為中繼資料後端。
講師
殳鑫鑫,花名辰石,阿裡巴巴計算平台事業部EMR團隊技術專家,目前從事大資料存儲以及Spark相關方面的工作。
3月5日JindoFS系列直播
【Hadoop Job committer 的演化和發展】 https://www.slidestalk.com/AliSpark/HadoopJobCommitter24512講師:
李呈祥,花名司麟 ,阿裡雲智能EMR團隊進階技術專家,Apache Hive Committer, Apache Flink Committer,目前主要專注于EMR産品中開源計算引擎的優化工作
直播簡介:
Job Committer是Mapreduce/Spark等分布式計算架構的重要組成部分,為分布式任務的寫入提供一緻性的保證,本次分享主要介紹Job Committer的演進曆史,以及社群和EMR在S3/OSS等雲存儲上的最新進展。
1月9日
【使用Apache SuperSet和EMR Spark打造互動式的資料探索平台】 https://www.slidestalk.com/AliSpark/ApacheSupersetEMRSpark27046?video本次分享主要介紹如何結合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube進階特性在SuperSet進行秒級響應,互動式的可視化資料探索。
李呈祥,花名司麟,阿裡雲智能EMR團隊進階技術專家,Apache Hive Committer, Apache Flink Committer,目前主要專注于EMR産品中開源計算引擎的優化工作。
2019年
12月11日
【實時數倉建設以及典型場景應用】 https://www.slidestalk.com/AliSpark/94464?video本次分享會介紹實時數倉的思路以及一些實踐,包括SparkStreaming SQL引擎,以及對Delta/Kudu/Druid/阿裡雲多種存儲元件的深度整合;同時會在這個基礎上介紹一些典型案例應用
宋軍,花名嵩林 阿裡雲EMR進階技術專家。從事Spark核心優化,對SparkCore/SprakSQL有深入了解,Spark Contributor
12月5日
【是時候改變你數倉的增量同步方案了 】 https://www.slidestalk.com/AliSpark/64659?video本分享會先介紹傳統資料增量同步方案,之後對比新方案(完全基于Spark無需額外元件),介紹新方案如何結合最新的資料湖(delta lake)實作,同時引入spark-binlog,極大的簡化了資料增量的門檻和架構。如果時間允許,我們也會簡單介紹開源項目spark-binlog,delta-plus等的内部設計是如何支援我們新的資料增量方案的。
祝威廉,資深資料架構,11年研發經驗。同時維護和開發多個開源項目。擅長大資料/AI領域的一些思路和工具。現專注于建構集大資料和機器學習于一體的綜合性平台,降低AI落地成本相關工作上。
11月28日
【Tablestore結合Spark的雲上流批一體大資料架構 】 https://www.slidestalk.com/AliSpark/TablestoreSpark31173?video傳統Lambda架構元件多運維複雜,如何使用一套存儲和一套計算來實作流批架構充分享受技術紅利?以Delta Lake為代表的新型資料湖方案越來越流行,傳統的Lambda架構如何向資料湖架構進行擴充?以及結構化資料結合Delta Lake的最佳解決方案是什麼。本次分享将會結合理論講解和實際場景為您一一解答。
王卓然 花名琸然 阿裡雲存儲服務技術專家
11月16日
【阿裡雲大資料+AI技術沙龍上海站】回看
11月14日Spark社群直播【
Spark on Kubernetes & YARN https://www.slidestalk.com/AliSpark/MicrosoftPowerPoint55236?video直播介紹:
以Kubernetes為代表的雲原生技術越來越流行起來,spark是如何跑在Kubernetes之上來享受雲原生技術的紅利?
Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什麼差別?以及Kubernetes 和YARN的差異點是什麼。
主講人:
何劍
阿裡巴巴進階技術專家,專注于Kubernetes容器雲和大資料底層排程以及基礎架構,負責阿裡巴巴容器平台線上服務和離線計算任務混部。此前就職于Hortonworks, 是Hadoop 社群Committer和PMC成員
10月17日
【Tablestore Spark Streaming Connector -- 海量結構化資料的實時計算和處理 】 https://www.slidestalk.com/AliSpark/Spark78776主講人:朱曉然
Tablestore存儲服務技術專家
簡介: Tablestore是阿裡雲自研的雲原生結構化大資料存儲服務,本議題會詳細介紹如何基于Tablestore的CDC技術,将大表内實時資料更新對接Spark Streaming來實作資料的實時計算和處理。最新版本的Connector會随着EMR下個版本的SDK一起開源,場景環節會結合阿裡内部的業務介紹使用者如何結合Tablestore和Spark來實作實時資料處理。
直播demo9月26日
【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】 https://www.slidestalk.com/AliSpark/NewDevelopmentsintheOpenSourceEcosystemApacheSpark30andKoalas32939主講人:李潇
Databricks Spark 研發總監,管理一跨國團隊,專注于 Apache Spark 和 Databricks Runtime 的開發和建設。他是 Apache Spark 項目管理委員會成員。大學畢業于南京理工大學,後在佛羅裡達大學(University of Florida)獲計算機博士學位, 曾就職于 IBM,獲發明大師稱号(Master Inventor),在資料處理領域發表專利十餘篇。(Github: gatorsmile)
簡介: Apache Spark 3.0 and Koalas的最新進展
9月27日
【助力雲上開源生态 - 阿裡雲開源大資料平台的發展】 https://www.slidestalk.com/AliSpark/Koalas72249主講人:夏立,花名雷飙,阿裡巴巴計算平台EMR進階産品專家,2014年開始接觸大資料,曆經阿裡内部的大資料發展,目前在阿裡雲上負責開源的大資料平台EMR産品,建構雲上的開源生态。
簡介:介紹阿裡雲上開源生态的發展,阿裡雲如何更好的支援和融合開源生态,以及未來的發展。
【EMR打造高效雲原生資料分析引擎】 https://www.slidestalk.com/AliSpark/2019___0926_110365主講人:辛現銀,花名辛庸,阿裡巴巴計算平台事業部 EMR 技術專家。Apache Hadoop,Apache Spark contributor。對 Hadoop、Spark、Hive、Druid 等大資料元件有深入研究。目前從事大資料雲化相關工作,專注于計算引擎、存儲結構、資料庫事務等内容。
簡介:EMR-Jindo 是 EMR 推出的雲原生 OLAP 引擎。憑借該引擎,EMR 成為第一個雲上 TPC-DS 成績送出者。經過持續不斷地核心優化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成績又有了大幅提高,達到了3615071,成本降低到 0.76 CNY。本次分享将介紹 EMR-Jindo 引擎背後的相關技術以及以 EMR-Jindo 為核心的雲上大資料架構方案。
【雲上大資料的一種高性能資料湖存儲方案】 https://www.slidestalk.com/AliSpark/0761944- 徐铖, Intel大資料團隊軟體開發經理
簡介:大資料上雲是業界普遍共識,存儲和計算分離的趨勢日益顯著,如何為雲上蓬勃發展的大資料處理和分析引擎提供堅實的存儲基礎?這個 session 會主要讨論 EMR 技術團隊重磅推出的一種新型混合存儲解決方案,該方案基于雲平台和雲存儲,面向新的存儲硬體和計算發展趨勢,為 EMR 彈性計算量身打造,在成本,彈性和性能上追求極佳平衡。技術上是如何實作的?性能如何?覆寫了哪些典型場景,最佳實踐是什麼?敬請期待!
【基于Spark與TensorFlow的機器學習實踐】 https://www.slidestalk.com/AliSpark/201960935- 吳威,花名無謂 阿裡巴巴進階技術專家,2008年加入阿裡巴巴集團,先後在B2B和阿裡雲工作,一直從事大資料和分布式計算相關研究,作為主要開發和運維人員經曆了阿裡内部大資料叢集的上線和發展壯大,現在阿裡雲EMR團隊,負責Spark、Hadoop等計算引擎研發。
- 江宇,阿裡雲EMR技術專家。從事Hadoop核心開發,目前專注于機器學習、深度學習大資料平台的建設
簡介:Apache Spark是目前最火熱的計算架構,而TensorFlow是目前最火熱的機器學習架構,當他們2個碰撞到一起的時候,也會産生巨大的能量。本議題會介紹EMR和PAI在這個上面的實踐。
【Spark Relational Cache實作亞秒級響應的互動式分析】 https://www.slidestalk.com/AliSpark/SparkRelationalCache2019_57927主講人:王道遠,花名健身,阿裡雲EMR技術專家,Apache Spark活躍貢獻者,主要關注大資料計算優化相關工作。
簡介:2019杭州雲栖大會大資料生态專場中的分享《
Spark Relational Cache實作亞秒級響應的互動式分析》
Apache Spark被廣泛用于超大規模的資料分析處理,在互動式分析等時間敏感的場景中,超大規模資料量的處理時間可能無法滿足使用者快速響應的需求。通過資料的預組織和預計算,将頻繁通路的資料和計算提前執行并儲存在Relational Cache中,優化後續特定模式的查詢,可以顯著提高查詢速度,實作亞秒級的響應。本議題主要介紹Spark Relational Cache的實作原理和使用場景。
9月18日
【阿裡巴巴大資料産品最新特性介紹—E-MapReduce】主講人:王曉平,花名子關,阿裡雲智能事業群進階産品經理
簡介:本次直播将為您介紹E-MapReduce近期釋出最新feature,涵蓋叢集隊列管理,彈性伸縮等場景産品的使用。幫助您更快的上手雲上開源大資料體系。
8月28日【
Spark Streaming SQL流式處理簡介 https://www.slidestalk.com/AliSpark/StreamingSQL89252主講人:雲魄,阿裡雲E-MapReduce 進階開發工程師,專注于流式計算,Spark Contributor,開源愛好者
簡介:本次直播将簡要介紹EMR Spark Streaming SQL,主要包含Streaming SQL的文法和使用,最後做demo示範
8月14日【
Spark Shuffle 優化 https://www.slidestalk.com/AliSpark/SparkShuffle72856主講人:辰石,阿裡巴巴計算平台事業部EMR團隊技術專家,目前從事大資料存儲以及Spark相關方面的工作。
簡介:本次直播介紹EMR Spark 在shuffle方面的相關優化工作,主要包含shuffle 優化的背景以及shuffle 優化的設計方案,最後會介紹Spark shuffle 在 TPC-DS測試中的性能資料
7月31日【
Apache Spark 在存儲計算分離趨勢下的資料緩存 https://www.slidestalk.com/AliSpark/ApacheSpark59735主講人:辰山,阿裡巴巴計算平台事業部 EMR 進階開發工程師,目前從事大資料存儲方面的開發和優化工作
簡介:在資料上雲的大背景下,存儲計算分離逐漸成為了大資料處理的一大趨勢,計算引擎需要通過網絡讀寫遠端的資料,很多情況下 IO 成為了整個計算任務的瓶頸,因而資料緩存成為此類場景下的一個重要的優化手段。本次分享将介紹 Spark 在資料緩存上的一些做法,并将介紹 EMR 自研的 Jindo 存儲系統在資料緩存上的應用。
7月24日【
Apache Spark 基于 Apache Arrow 的列式存儲優化 https://www.slidestalk.com/AliSpark/ApacheSpark57985主講人:誠曆,阿裡巴巴計算平台事業部 EMR 技術專家,Apache Sentry PMC,Apache Commons Committer,目前從事開源大資料存儲和優化方面的工作。
簡介:Apache Arrow 是一個基于記憶體的列式存儲标準,旨在解決資料交換和傳輸過程中,序列化和反序列化帶來的開銷。目前,Apache Spark 社群的一些重要優化都在圍繞 Apache Arrow 展開,本次分享會介紹 Apache Arrow 并分析通過 Arrow 将給 Spark 帶來哪些特性。
7月10日【
E-MapReduce産品探秘,擴充開源生态雲上的能力 https://www.slidestalk.com/AliSpark/EMapReduce244933講師:夏立,花名雷飙 ,阿裡巴巴計算平台EMR進階産品專家,2014年開始接觸大資料,曆經阿裡内部的大資料發展,目前在阿裡雲上負責開源的大資料平台EMR産品,建構雲上的開源生态。
直播介紹:E-MapReduce的産品能力介紹,通過EMR來建構高效的雲上大資料平台,優化雲上的使用成本,更快的計算效率。
7月3日【
E-MapReduce産品探秘,快速建構可擴充的高性能大資料平台 https://www.slidestalk.com/AliSpark/EMapReduce34570講師:夏立,花名雷飙,阿裡巴巴計算平台EMR進階産品專家,2014年開始接觸大資料,曆經阿裡内部的大資料發展,目前在阿裡雲上負責開源的大資料平台EMR産品,建構雲上的開源生态。
直播介紹:E-MapReduce整體介紹。通過EMR如何建構一個雲上的大資料叢集,常見的使用場景和硬體選型指南。
Koalas 介紹 https://www.slidestalk.com/AliSpark/Koalas80025講師:王道遠(健身),阿裡雲EMR技術專家,Apache Spark活躍貢獻者,主要關注大資料計算優化相關工作。
内容介紹:Koalas是Spark社群推出的新項目,旨在為Spark提供與pandas完全相容的接口,在降低pandas使用者的學習和遷移成本的同時,充分利用Spark強大的分布式處理能力。本次分享介紹Koalas的基本用法和原理。
6月26日【
Spark Relational Cache 原理和實踐 https://www.slidestalk.com/AliSpark/SparkRelationalCache78971講師:李呈祥,阿裡巴巴計算平台事業部EMR團隊的進階技術專家,Apache Hive Committer, Apache Flink Committer,深度參與了Hadoop,Hive,Spark,Flink等開源項目的研發工作,對于SQL引擎,分布式系統有較為深入的了解和實踐,目前主要專注于EMR産品中開源計算引擎的優化工作。
内容介紹:主要介紹Relational Cache/物化視圖的曆史和背景,以及EMR Spark基于Relational Cache加速Spark查詢的技術方案,及如何通過基于Relational Cache的資料預計算和預組織,使用Spark支援亞秒級響應的互動式分析使用場景。
6與19日【
MLFlow和spark在機器學習方面的進展、Project Hydrogen和spark在深度學習方面的進展 https://www.slidestalk.com/AliSpark/mlflowandprojecthydrogen85216講師:江宇,阿裡雲EMR技術專家。從事Hadoop核心開發,目前專注于機器學習、深度學習大資料平台的建設。
内容介紹:mlflow為企業提供一套開源的機器學習端到端工具,同時,project hydrogen項目旨在将AI架構與Spark更好的結合。本次直播介紹mlflow的場景和使用方式,project hydrogen的進展以及我們如何通過project hydrogen提供的能力更好的将Spark與AI結合。
6月6日【
Structured Steaming的進階與實踐 https://www.slidestalk.com/AliSpark/StructuredStreaming60695講師:關文選,花名雲魄,阿裡雲E-MapReduce 技術專家,開源愛好者。
介紹:structured steaming因其低延遲時間和提供的SQL API等特性被越來越多的企業所使用,作為實時計算的首選。
本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用場景等的介紹。
5月29日【
Migration to Apache Spark https://www.slidestalk.com/AliSpark/migration_to_spark66763講師:宋軍,花名嵩林,阿裡雲EMR技術專家。從事Spark核心優化,對SparkCore/SprakSQL有深入了解,Spark Contributor
内容簡介:Spark因其統一引擎、性能、易用性等特點備受青睐,将大資料處理引擎遷移到Spark已經成為一種趨勢(比如将Hive遷移到SparkSQL),很多大公司也正在實踐。
本次分享将圍繞Hive遷移到SparkSQL進行展開,内容包括介紹大公司遷移流程、遇到的問題以及對Spark做的一些回報優化。
5月23日【
基于Spark實作的MLSQL如何幫助企業建構資料中台 https://www.slidestalk.com/AliSpark/SparkMLSQL78867講師:祝威廉,資深資料架構,11年研發經驗。同時維護和開發多個開源項目。擅長大資料/AI領域的一些思路和工具。現專注于建構集大資料和機器學習于一體的綜合性平台,降低AI落地成本相關工作上。
内容簡介:本次分享中,分享者會闡述他心目中的資料中台的樣子,并且介紹如何基于MLSQL完成資料中台的建構。
此外,分享者會也會介紹MLSQL是如何基于Spark來完成這些擴充的,重要的技術點有:
1.如何擴充Spark SQL使其成為一個資料專用的語言MLSQL.
2.如何實作對各種資料源譬如HDFS/ES/MySQL/MongoDB等細化到列的權限控制。
3.如何建構二層RPC通訊強化對Executor的控制,實作對機器學習更好的支援。
4.如何支援相容多版本Spark
5.如何避免機器學習中預測階段無法複用訓練時的代碼和資料
另外,我們也會簡單探讨下Databricks公司新開元項目Delta對于資料和機器學習的意義。
5月15日【
Delta Lake:一種新型的資料湖方案 https://www.slidestalk.com/AliSpark/Introduction_to_Delta43594講師:辛庸,阿裡巴巴計算平台事業部 EMR 技術專家。Apache Hadoop,Apache Spark contributor。對 Hadoop、Spark、Hive、Druid 等大資料元件有深入研究。目前從事大資料雲化相關工作,專注于計算引擎、存儲結構、資料庫事務等内容。
内容簡介:Delta Lake 是 Databricks 推出的一種新型的資料湖方案,解決了傳統資料湖方案中的諸多痛點。其中的核心元件 Delta 也于近期開源。本次分享将圍繞 Delta Lake 和 Delta 的諸多細節展開,如 Delta Lake 的适用場景、技術優勢,Delta 的原理實作以及一些進階特性等,并就現有解決方案做橫向對比。
4月29日【
Spark + AI 北美峰會參會分享講師:鄭锴,花名鐵傑,阿裡巴巴進階技術專家,Apache Hadoop PMC,Apache Kerby 創立者。深耕分布式系統開發和開源大資料多年,先後專注在安全,存儲和計算領域。之前在 Intel,目前轉戰阿裡雲上,緻力于提供更好用更有彈性的Hadoop/Spark 大資料平台。
内容簡介:Spark + AI 北美峰會 2019 盛況依然,這兩天正如火如荼。大會的主題是 Build,Unify,Scale,對此如何了解?磚廠這次有哪些重磅消息和重要釋出,并作如何解讀?Spark 過去幾年發展的基調和線索是什麼,從這次峰會上又如何看出 Spark 在未來幾年的發展端倪?敬請期待!
1月10日【
微軟Azure平台利用Intel Analytics Zoo建構AI客服支援實踐黃凱——Intel大資料技術團隊軟體工程師。
衛雨青——Microsoft C+AI 團隊軟體工程師。
簡介:本次分享将為大家介紹Intel的Analytics Zoo工具包,并分享微軟Azure智能客服平台使用Intel Analytics Zoo的實踐經驗。
ppt下載下傳12月26日【
大資料列式存儲之 Parquet/ORC簡介:Parquet 和 ORC 是大資料生态裡最常用到的兩個列式存儲引擎,這兩者在實作上有什異同,哪個效率更好,哪個性能更優,本次分享将和您一起探索兩大列式存儲。
12月21日【
What's New in Apache Spark 2.4?講師:李潇,現就職于Databricks,專注于Apache Spark的開發和建設。他是Apache Spark項目管理委員會成員。大學畢業于南京理工大學,後在佛羅裡達大學(University of Florida)獲計算機博士學位, 曾就職于IBM,獲發明大師稱号(Master Inventor),在資料處理領域發表專利十餘篇。(Github: gatorsmile)
Abstract(簡介):This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.
The Apache Spark 2.4 comes packed with a lot of new functionalities: new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support and a lot of other improvements.
12月13日【
Spark RDD程式設計入門講師:王道遠,花名健身,阿裡雲EMR技術專家,Apache Spark活躍貢獻者,主要關注大資料計算優化相關工作。
内容提要:本次講座主要涵蓋Spark RDD程式設計入門基礎,包括:
1.Spark、RDD簡介
2.RDD API簡介
3.打包與spark-submit
4.性能分析與調優基礎
12月6日【
機器學習介紹與Spark MLlib實踐内容提要:本次講座主要面對的是機器學習的入門者,以及想要使用Spark來進行機器學習的使用者。我們會介紹一下機器學習相關領域的基礎知識,以及機器學習在spark上面的實踐,同時給出我們的一些使用建議。
11月27日 【
Spark SQL 實踐與優化内容簡介:
1.基本原理
2.支援的DataSource介紹
3.Hue/Zepplin/Livy周邊跟SparkSQL的內建使用等
4.SparkSQL優化
5.SparkSQL Catalyst優化
6.AE優化
7.Shuffle優化
12月4日【
從 Spark Streaming 到 Structured Streaming講師:陶克路,花名敵琺,阿裡巴巴技術專家。Apache Pulsar 等開源軟體 Contributor。技術領域包括大資料和雲原生技術棧,目前緻力于建構大資料領域業界領先的 APM 産品。
提綱:
1.Spark Streaming
2.Google Dataow
3.Structured Streaming
4.Reference
阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區近萬人Spark技術同學線上提問答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。
Apache Spark技術交流社群公衆号,微信掃一掃關注