11月16日,阿裡雲大資料+AI技術沙龍,首戰上海站取得圓滿成功。我們邀請到阿裡巴巴計算平台事業部 技術專家辛庸,辰山,撫月,誠曆;進階技術專家鐵傑,以及Intel軟體工程師喻杉和大家進行分享交流。
以下是各議題相關資料沉澱。
議題一:
基于 Spark 打造高效雲原生資料分析引擎
視訊觀看連結:
https://developer.aliyun.com/live/1712?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachesparkPPT連結:
https://www.slidestalk.com/AliSpark/Meetup_Shanghai_16944辛庸,阿裡巴巴計算平台事業部 EMR 技術專家。Apache Hadoop,Apache Spark contributor。對 Hadoop、Spark、Hive、Druid 等大資料元件有深入研究。目前從事大資料雲化相關工作,專注于計算引擎、存儲結構、資料庫事務等内容。
議題簡介:
由阿裡巴巴 EMR 團隊送出的 TPC-DS 成績在九月份的榜單中取得了排名第一的成績。這個成績背後離不開 EMR 團隊對 Spark 執行引擎持續不斷的優化。
本次分享将選取一些有代表性的優化點,深入到技術細節做詳細介紹,包括但不限于動态過濾、CBO增強、TopK排序等等。
議題二:
使用分布式自動機器學習進行時間序列分析
https://developer.aliyun.com/live/1713?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark https://www.slidestalk.com/AliSpark/TimeSeriesForecastingAutoML_Shan_19111673315喻杉,Intel大資料分析團隊軟體工程師。她目前專注于在analytics-zoo大資料和人工智能平台上開發自動機器學習元件。在加入intel前,她在浙江大學獲得了學士和碩士學位。
内容簡介:
對于時間序列預測搭建機器學習應用的過程非常繁瑣且需要大量經驗。為了提供一個簡單易用的時間序列預測工具,我們将自動機器學習應用于時間序列預測,将特征生成,模型選擇和超參數調優等過程實作自動化。我們的工具基于Ray(UC Berkeley RISELab開源的針對進階AI 應用的分布式架構,并作為Analytics zoo(由intel開源的統一的大資料分析和人工智能平台)的一部分功能提供給使用者。
議題三:
雲上大資料的存儲方案設計和選擇
https://developer.aliyun.com/live/1714?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark https://www.slidestalk.com/AliSpark/13535?video姚舜揚,花名辰山,阿裡巴巴計算平台事業部 EMR 進階開發工程師,目前從事大資料存儲方面的開發和優化工作;
蘇昆輝,花名撫月,阿裡巴巴計算平台事業部 EMR 進階工程師, 曾就職于華為、網易. Apache HDFS committer. 對Hadoop、HBase等有深入研究, 對分布式存儲、高性能優化有豐富經驗. 目前從事大資料雲化相關工作.
上雲拐點已來,開源大資料上雲是業界共識。如何滿足在雲上低成本存儲海量資料的同時又實作高效率彈性計算的潛在需求?放眼業界,都有哪些成熟存儲方案和選擇?各自适用的存儲和計算場景是什麼?背後的技術關鍵和考慮因素都有哪些?歡迎大資料技術愛好者面對面交流和探讨!
議題四:
從Python 到Java ,Pyboot加速大資料和AI的融合
https://developer.aliyun.com/live/1715?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark https://developer.aliyun.com/live/1717?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark https://www.slidestalk.com/AliSpark/PybootAI12722鄭锴,花名鐵傑,阿裡巴巴進階技術專家,Apache Hadoop PMC,Apache Kerby 創立者。深耕分布式系統開發和開源大資料多年,目前專注于在阿裡雲上提供更好用更有彈性的 Hadoop/Spark 大資料平台;
孫大鵬,花名誠曆,阿裡巴巴計算平台事業部 EMR 技術專家,Apache Sentry PMC,Apache Commons Committer,目前從事開源大資料存儲和優化方面的工作;
Python 代表機器學習生态,而以 Hadoop/Spark 為核心的開源大資料則以 Java 為主。前者擁有數不清的算法庫和程式,後者承載着海量資料和大量的企業應用。除了 SQL 這個标準方式和各種五花八門的協定接口,還有沒有更高效的一手資料通道,将兩個生态對接起來,乃至深度融合?Pyboot 是我們在這個方向上的探索。有興趣的同學歡迎現場觀摩示範和技術交流。
EMR團隊介紹
阿裡雲 EMR 團隊,緻力于為客戶提供開源大資料 Hadoop/Spark 生态基于雲端的一站式,高可用彈性計算平台。EMR 團隊在國内營運最大的 Spark 社群,為了更好地傳播和分享業界最新技術和最佳實踐,現聯合開源社群同行,打造一個純粹的技術交流線下沙龍《大資料 + AI》,定期為大家做公益分享。
社群位址:
https://developer.aliyun.com/group/apachespark作為運作在阿裡雲平台上的一種大資料處理的系統解決方案,阿裡雲 Elastic MapReduce(E-MapReduce)建構于阿裡雲雲伺服器 ECS 上,基于開源的 Apache Hadoop 和 Apache Spark,讓使用者可以友善地使用 Hadoop 和 Spark 生态系統中的其他周邊系統(如 Apache Hive、Apache Pig、HBase 等)來分析和處理自己的資料。官網:
https://www.aliyun.com/product/emapreduceE-MapReduce 目前已服務政府、教育、新零售、服務、網際網路、人工智能等行業超千家企業,提供叢集管理工具的內建解決方案,如主機選型、環境部署、叢集搭建、叢集配置、叢集運作、作業配置、作業運作、叢集管理、性能監控等。
今年3月份,E-MapReduce成為全球首個通過TPC認證的公共雲産品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇奪第一,性能達到5,261,414 QphDS,比之前最好成績提升19%,并且将機關查詢成本降低38%。同時,E-MapReduce首次将TPC-DS資料集規模拓展至100TB,性能達到14,861,137 QphDS,100TB的資料規模是競争對手産品最大處理能力的10倍。
Jindo是阿裡雲智能E-MapReduce團隊在開源的Apache Spark基礎上自主研發的雲原生分布式計算和存儲引擎,已經在近千E-MapReduce客戶中大規模部署使用。Jindo Spark在開源版本基礎上做了大量優化和擴充,深度內建和連接配接了衆多阿裡雲基礎服務。
此次TPC-DS benchmark報告經過了嚴格第三方審計流程,任何阿裡雲智能的客戶可以在阿裡雲官網購買并使用 最新版本。在benchmark測試中我們在阿裡雲ECS伺服器上使用了Jindo Spark的最新版本,在幾乎相同的硬體環境上,新版本的Jindo Spark展示了性能、功能和擴充性上有了長足的進步,在TPC-DS為代表的SQL查詢性能相比以往版本有3倍以上的性能提升,查詢規模更是提升了10倍,可以非常穩定的處理100TB規模的資料表。在本次 TPC-DS 10TB benchmark測試中,Jindo 引擎展現了比開源軟體以及商業大資料産品更好的性能和更完整的分析支援。
感謝在開發的同時EMR團隊對Spark社群的貢獻。更多對Jindo Spark的性能優化和功能增強工作還在進行中,對開源大資料和資料庫OLAP場景感興趣的同學可以聯系EMR團隊的無謂、鐵傑和亦龍,也可加入釘釘群交流

微信掃描微信公衆号二維碼,每日推送技術文章和最新活動