天天看點

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光

作者:鄭锴,花名鐵傑,阿裡巴巴進階技術專家,Apache Hadoop PMC,Apache Kerby 創立者。深耕分布式系統開發和開源大資料多年,目前專注于在阿裡雲上提供更好用更有彈性的 Hadoop/Spark 大資料平台。

端午節宅家,

Spark + AI Summit 2020

在網上如火如荼。剛看了 Matei 先生的keynote,他對 Spark 10 年做了非常精彩的演講和深情的回顧,不禁很多感想,卻千頭萬緒。我想這次簡單點,不啰嗦,直接挑個重點說吧,看下圖。

這是我在 Youtube 上看的視訊做的一個截圖。這張 slide 無需解讀,我相信大家都能看出以下幾點。

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光

第一. SQL 萬物歸宗,成為Spark 諸多語言 API 的核心,SparkSQL 和 Spark Core 以後就是一回事。大家可以收收心吧,做好 SQL 是沒有問題的,圍繞着 SQL 做優化還是王道。

第二. SparkSQL 重回巅峰,在性能上大幅超越 Presto。在過去幾年,我們見過了太多的 benchmark,大家都在紛紛超越 Spark。Spark 3.0 這一進展可以說大大提振了大家對 Spark 的信心,可謂及時雨。

第三. 在所有雲廠商裡面,阿裡雲在 Spark 技術上繼續保持領先水準。

今年第二次沖頂 的成績在這兒明擺着,感謝 Matei 對我們的認可。阿裡一邊大力發展 Flink,在Spark 上也不忘投入,畢竟客戶和生态在那兒。相信以後再也不用跟同學解釋,阿裡是不是不搞 Spark 了。值得提出的是,在不斷沖頂成績的背後,是我們紮實的持續的技術投入。我們在 SQL 優化器上,native 代碼生成和執行上,在基于對象存儲做緩存上,我們一直都在加大投入,經常光顧我們 Spark 社群公衆号的同學應該對此都不會陌生, EMR Spark-SQL性能極緻優化揭秘 Native Codegen Framework 。在這次大會上首次曝光的 Photon 項目

,是不是在諸多方面有異曲同工之妙?說白了,架構層面的事情都優化完了,還是要回到native 層面,最後估計大家都是殊途同歸,何況榨幹機器這種事情在雲上面尤其有着特别大的意義。關于Photon 引擎,這個後面找機會另文展開,這裡先打住。

第四. 數磚跟雲廠商的關系越來越和諧,也越來越自信了。其實相比較這次, 阿裡雲 E-MapReduce(EMR)在

TPC-DS 上第一次利用 Spark 沖頂

,更具有突破性的意義。然而卻是在今年,代表 Spark 背後的公司數磚,由Spark 作者在一年一度的最重要的這次大會上認可了這件事,毫無疑問值得玩味。一句話,Spark 的發展離不開雲廠商,數磚也會繼續擁抱和深耕雲平台,開源和雲廠商可以合作共赢。

Spark 10年了,相信這次大會有更多的東西可以去發掘。希望精彩繼續,我也接着學習去了。祝大家節日愉快!

相關活動:

我們欠國内Spark開發者的,用一場擲地有聲的中文峰會來還
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光

7月4日-5日,Apache Spark中國技術交流社群舉辦首次SPARK + AI SUMMIT 2020 中文精華版線上峰會,在北美summit結束第一時間為國内開發者奉上一場技術盛筵。本次活動由阿裡雲開發者社群牽頭,聯合阿裡雲計算平台、Databricks、達摩院、英特爾、領英,在超過覆寫五萬開發者的管道進行投票,票選出了12個最受關注的大會topic進行中文講解,邀請十幾位來自北京、上海、杭州、矽谷的PMC和意見領袖,一一還原英文現場的經典分享。直播間連結

https://developer.aliyun.com/live/43188

推薦閱讀:

Apache Spark 3.0.0 正式版終于釋出了,重要特性全面解析

阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區近萬人Spark技術同學線上提問答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光

對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光

Apache Spark技術交流社群公衆号,微信掃一掃關注

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顧,Photon 引擎首次曝光