《Apache Spark 中文實戰攻略》重磅來襲!
點選下載下傳
>>《Apache Spark 中文實戰攻略(下冊)》<<
或者複制該連結到浏覽器完成下載下傳或分享: https://developer.aliyun.com/topic/download?id=822
《Apache Spark 中文實戰攻略》上下兩冊電子書重磅來襲,本書集結國内外頂級大廠技術專家,彙集多年實戰經驗,帶你走進全球頂級開源社群之一 Apache Spark,探秘時下最流行的開源分布式記憶體式大資料處理引擎。
《Apache Spark 中文實戰攻略(下冊)》—— 讓企業大資料平台性能更優。阿裡、Databricks、領英、Intel、Facebook 都在用!Spark 企業級最佳實踐中文解讀全收納!

想看全套電子書?沒問題!點選下面連結一鍵下載下傳《Apache Spark 中文實戰攻略(上冊)》:https://developer.aliyun.com/topic/download?id=821
關于Apache Spark
Apache Spark是快速、易于使用的架構,允許你解決各種複雜的資料問題,無論是半結構化、結構化、流式,或機器學習、資料科學。它也已經成為大資料方面最大的開源社群之一,擁有來自250多個組織的超過1000個貢獻者,以及遍布全球570多個地方的超過30萬個Spark Meetup社群成員。
精彩導讀
使用 Databricks 作為分析平台
YipitData是一家咨詢公司,其客戶主要是投資基金以及财富五百強中的一些公司。該公司通過自己的資料産品進行分析,提供給客戶相應的資料分析報告。YipitData的主要産出方式和賺錢方式就是做資料分析,其公司内部有53個資料分析師,卻隻有3個資料工程師。資料分析的基礎是資料,是以對于該公司來說大資料分析的平台是非常重要的。阿裡巴巴進階技術專家章劍鋒介紹了YipitData公司基于Databricks平台搭建的分析平台。
點選檢視更多内容: https://developer.aliyun.com/article/768341?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark
在 kubernetes 上運作 apache spark
k8s 和 spark 的結合是出現在 spark 2.3 版本以後的事情,在此之前有幾種方式。第一種就是 Standalone,大家使用的并不是非常的多。第二種是 Apache mesos,在國外用的比較多,但是市場規 模也在逐漸縮小。第三種是 Yarn,我們現在絕大多數的企業都是跑在 Yarn 的叢集裡面了。第四種是 Kubernetes,現在大家也逐漸的把 spark 跑在 k8s 上面。
阿裡雲進階技術專家範振為大家帶來在kubernetes上運作apache spark的介紹。内容包括Data Mechanic平台介紹,Spark on k8s,以及EMR團隊雲原生的思考和實踐。
https://developer.aliyun.com/article/768355?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark
Ray on Spark
開源了BigDL之後,英特爾又開源了統一的資料分析和AI平台Analytics Zoo,使用者可以根據不同的需求,在大資料的平台上直接運作由使用TensorFlow、PyTorch、Keras、Ray、等架構建構的應用。Analytics Zoo可以将使用者的大資料平台作為資料存儲、資料處理挖掘、特征工程、深度學習等一體化的pipeline平台。
RayOnSpark 能夠讓Ray的分布式應用直接無縫地內建到Apache Spark的資料處理流水線中,省去叢集間資料傳輸的overhead,支援使用者使用Spark處理的資料做新興人工智能應用的開發。由Intel大資料團隊軟體工程師黃凱為大家介紹Ray和Intel的開源項目Analytics Zoo,開發RayOnSpark的動機和初衷,同時結合實際案例分享RayOnSpark的落地實踐。
https://developer.aliyun.com/article/769212?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark
EMR Spark-SQL性能極緻優化揭秘
在 2019 年的打榜測試中,我們基于 Spark SQL Catalyst Optimizer 開發的 RuntimeFilter 優化 對于 10TB 資料 99 query 的整體性能達到 35% 左右的提升。最近阿裡雲 E-MapReduce 團隊在 TPCDS-Perf 榜單中送出了最新成績,相比去年的成績,無論從性能還有成本效益都取得了 2 倍+的優秀成績!這次的優化裡面,引入的 Native Runtime,如果說上述的優化器優化都是一些特殊 Case 的殺手锏,Native Runtime 就是一個廣譜大殺器,根據後期統計,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗時,這個在TPCDS Perf 裡面也是一個很大的性能提升點。
阿裡巴巴計算平台事業部EMR團隊進階開發工程師陸路分享了EMR這一突破性的實戰經驗。
https://developer.aliyun.com/article/759655?spm=a2c6h.12873581.0.0.4c7347b4kZF5up&groupCode=aliyunemr
更多精彩技術集錦,加入Apache Spark 釘釘技術交流群
藏經閣系列電子書
阿裡雲開發者社群——藏經閣系列電子書,彙聚了一線大廠的技術沉澱精華,爆款不斷。
點選連結擷取海量免費電子書:
https://developer.aliyun.com/ebook