11月1日,大資料+AI Meetup 第二季·上海站成功舉辦!來自阿裡巴巴、DellEMC、Databricks、滴滴、bilibili、StreamNative、上海力萌的9位技術專家齊聚魔都,集中解讀上半年大資料的熱門話題。
開源屆前浪後浪全員兇猛,合體也成為主流。此次 Meetup 幹貨滿滿,不僅分享了 Flink和Iceberg,Flink和 Hologres,Flink和Pulsar的深度融合的探索實踐、Spark高性能向量化查詢引擎解析,還有熱度沖天的資料湖存儲架構選型、bilibili 和滴滴的kafka平台優化方案;以及Elasticsearch、開源流式存儲系統 Pravega 的企業級實踐。

9大主題 PPT 合集免費下載下傳
掃描下方二維碼,背景發送關鍵字【1101PPT】即可下載下傳大資料+AI Meetup 上海站9位嘉賓分享的ppt合集~
▼ 掃碼領取 ▼
直播精彩回顧: https://developer.aliyun.com/live/245461
議題精彩回顧
《更低延時和更高吞吐量的流存儲, Pravega性能詳解》
嘉賓簡介:雷璐,DellEMC, Senior Principal Engineer, 在分布式對象存儲和流存儲産品上有着10年+設計架構經驗。現主要專注于流式系統上資料全文檢索方向-Pravega Search.
演講簡介:
流式系統要求在隻追加(Append-Only)資料結構之上實作高效的讀寫通路以及較低的端到端延遲。随着流式資料容量的不斷增長,流式系統面臨的挑戰也越來越大,不僅要能夠以低延遲處理工作負載,還要以高吞吐量容納大容量資料。Pravega作為開源流式存儲系統,不僅實作了讀寫路徑的低延遲和高吞吐,同時還可以達到彈性、持久性和一緻性的要求。更重要是,今天公用雲提供的标準硬體讓不同開源産品之間的性能對比變的透明和公平。本次分享中,雷璐老師選取了流系統幾個标準場景去比較Pravega, Kafka, and Pulsar性能,并詳細分享了所有技術細節。
《Kafka practice at bilibili》
嘉賓簡介:張辰安,bilibili 資深開發工程師
張老師本次分享了 Kafka 在 bilibili 的實踐。從kafka在b站的規模,架構着手,介紹了在大流量下 kafka 的痛點及解決方案,如:如何解決寫入抖動問題、為何需要修改kafka限流功能、kafka在多盤上的問題及解決方案、實體隔離任務優先級的方案等。
《資料湖存儲架構選型》
嘉賓簡介:鄭锴,花名鐵傑,阿裡巴巴進階技術專家,Apache Hadoop PMC。深耕分布式系統開發和開源大資料多年,目前專注于在阿裡雲上研發業界領先的 Hadoop/Spark 大資料平台和資料湖解決方案産品。
資料湖技術在大資料領域炙手可熱,随着在雲上的廣泛部署和應用,其業務價值逐漸獲得業界共識。傳統的大資料平台如何基于資料湖架構進行平台更新,享受新一輪的技術發展紅利?鄭老師着重跟大家分享了資料湖架構和應用在存儲上面臨的主要挑戰,以及方案選型和最佳實踐。
《Flink + Hologres 雲原生實時數倉最佳實踐》
嘉賓簡介:劉一鳴,花名合一, 阿裡雲進階産品專家,主要負責Hologres産品的演進和商業化。在大資料、資料倉庫、開源軟體行業有10年以上工作經驗,Apache Kylin PMC & Committer。
Hologres是基于雲原生能力設計的,支援高吞吐資料實時寫入、實時分析的分布式資料倉庫産品,與Flink的實時加工能力相結合,滿足實時數倉的建設、運維需求。此次分享,劉老師介紹了Hologres設計理念和架構體系,解析了大資料是如何支援分析服務一體化的,并重點分享了實時數倉建設實踐案例。
《萬億級消息隊列Kafka在滴滴的實踐》
嘉賓簡介:張亮,滴滴大資料架構部,進階技術專家, 2014年加入滴滴,主持建構過任務排程系統、監控系統、日志服務、實時計算、同步中心等平台設計與研發工作,目前在負責LogAgent、Kafka 、ElasticSearch、OLAP的引擎建設工作,具有豐富的高并發、高吞吐場景的架構設計與研發經驗。
Kafka作為滴滴大資料消息隊列,每天承載萬億級消息的生産與消費,面對60GB/S峰值流量,在叢集穩定性,運維友好性上遇到了很大的挑戰,在本次演講中,張亮老師分享了滴滴在Kafka高可用建設上在架構與引擎上的針對性優化;在Kafka可觀察性與運維友好性上在Kafka雲平台的建設實踐。
《基于spark的高性能向量化查詢引擎》
嘉賓簡介:範文臣,Databricks 開源組技術主管,Apache Spark Committer、PMC成員,Spark開源社群核心開發之一。
随着IO硬體性能的不斷提升,越來越多的查詢引擎針對CPU進行優化。本次演講中,範老師跟大家分享了Databricks在建構向量化查詢引擎過程中的一些實踐經驗。
《Apache Pulsar + Flink:統一批流處理最佳實踐》
嘉賓簡介:趙建雲,StreamNative 工程師,Apache Pulsar Contributor
演講簡介:Apache Flink 是一個架構和分布式處理引擎,用于在無邊界和有邊界資料流上進行有狀态的計算。盡管 Apache Flink 支援統一的批處理和流計算,但大多數流式存儲系統均不支援它。 Apache Pulsar 的獨特設計與目前正在開發的一些新功能相結合,解決了這個問題。在本演講中,趙老師介紹了批流融合帶來的新特性,例如并行批處理讀取使用批處理工作負載、Key_Shared訂閱等,并分享了批流融合處理的最佳實踐案例。
《Elasticsearch 大資料應用能力探查》
嘉賓簡介:李猛,上海力萌資訊科技有限公司 資料技術專家。Elastic Stack深度使用者,Elastic官方認證工程師,國内首批21人通過者之一。2012年接觸Elasticsearch,對Elastic Stack技術棧開發、架構、運維、源碼、算法等方面有深入體驗,實踐過多種Elastic Stack項目,主導過資料規模PB級以上的項目,包括大資料分析領域,複雜業務系統領域,日志采集處理分析領域,系統名額監控領域等。業餘為企業和個人提供Elastic Stack咨詢教育訓練以及調優實施。
- 全面介紹Elastic Stack自有大資料的處理能力、應用場景案例。
- 了解Elasticsearch與其它大資料産品混合能力、應用場景案例。
《Iceberg+Flink 應用場景深度分析》
嘉賓簡介:李勁松,花名之信,阿裡巴巴技術專家,Apache Flink&Iceberg Committer,長期專注于流批一體的計算與數倉架構。
資料湖的概念從被提出至今熱度不減,Iceberg 也是資料湖方向備受矚目的存在。如何将資料湖與強大算力相結合是大資料領域一直在探索的主題。本次分享,Apache Flink Committer 李勁松介紹了資料湖的概念及 Iceberg 技術詳情,并從如何建構數倉 Data Pipeline、數倉實時化以及如何建構CDC Pipeline三個方面跟大家分享了 Flink + Iceberg 的相關實踐。
關注及了解後續大資料+AI meetup 詳情,可掃碼加入大資料+AI技術交流群,下一站 Meetup 去哪裡?敬請期待!