開源大資料社群 & 阿裡雲 EMR 系列直播 第十一期
主題:Spark 大資料處理最佳實踐
講師:簡鋒,阿裡雲 EMR 資料開發平台 負責人
内容架構:
- 大資料概覽
- 如何擺脫技術小白
- Spark SQL 學習架構
- EMR Studio 上的大資料最佳實踐
直播回放:掃描文章底部二維碼加入釘群觀看回放,或進傳入連結接
https://developer.aliyun.com/live/247072一、大資料概覽
- 大資料處理 ETL (Data → Data)
- 大資料分析 BI (Data → Dashboard)
- 機器學習 AI (Data → Model)
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5CZwYmNkBjY2kTOzEDN2ATYmJTN0cTY0IzYwIzMjVDMz8CX5d2bs92Yl1iclB3bsVmdlR2LcNWaw9CXt92Yu4GZjlGbh5yYjV3Lc9CX6MHc0RHaiojIsJye.png)
二、如何擺脫技術小白
什麼是技術小白?
- 隻懂表面,不懂本質
比如:隻懂得參考别人的 Spark 代碼,不懂得 Spark 的内在機制,不懂得如何調優 Spark Job
擺脫技術小白的藥方
- 懂得運作機制
- 學會配置
- 學會看 Log
懂得運作機制:Spark SQL Architecture
學會配置:如何配置 Spark App
- 配置 Driver
• spark.driver.memory
• spark.driver.cores
- 配置 Executor
• spark.executor.memory
• spark.executor.cores
- 配置 Runtime
• spark.files
• spark.jars
- 配置 DAE
- …..........
參考網址:https://spark.apache.org/docs/latest/configuration.html
學會看 Log:Spark Log
三、Spark SQL 學習架構
Spark SQL 學習架構( 結合圖形/幾何)
1. Select Rows
2. Select Columns
3. Transform Column
4. Group By / Aggregation
5. Join
Spark SQL 執行計劃
1. Spark SQL - Where
2. Spark SQL - Group By
3. Spark SQL - Order by
四、EMR Studio 實踐
EMR Studio 特性:
- 相容開源元件
- 支援連接配接多個叢集
- 适配多個計算引擎
- 互動式開發 + 作業排程無縫銜接
- 适用多種大資料應用場景
- 計算存儲分離
1. 相容開源元件
- EMR Studio 在開源軟體 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優化了做了優化和增強。
2. 支援連接配接多個叢集
- 一個 EMR Studio 可以連接配接多個 EMR 計算叢集,您可以很友善地切換計算叢集,送出作業到不同的計算叢集上運作。
3. 适配多個計算引擎
- 自動适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多個計算引擎,無需複雜配置,多個計算引擎間協同工作
4. 互動式開發 + 作業排程無縫銜接
Notebook + Airflow : 無縫銜接開發環節和生産排程環節
- 利用互動式開發模式可以快速驗證作業的正确性.
- 在 Airflow 裡排程 Notebook 作業,最大程度得保證開發環境和生産環境的一緻性,防止由于開發階段和生産階段環境不一緻而導緻的問題。
5. 适用多種大資料應用場景
- 大資料處理 ETL
- 互動式資料分析
- 機器學習
- 實時計算
6. 計算存儲分離
- 所有資料都儲存在 OSS 上,包括:
• 使用者 Notebook 代碼
• 排程作業 Log
- 即使叢集銷毀,也可以重建叢集輕松恢複資料
EMR Studio Demo 示範:
參考文檔:
https:// help.aliyun.com / document_detail /208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI⭐具體産品介紹和示範,可以掃描文章底部釘釘群二維碼,進群觀看直播回放哦!
也可以點選以下連結直接觀看回放:
後續我們會在釘釘群定期推送精彩案例,邀請更多技術大牛直播分享。歡迎有興趣的同學掃下方二維碼加入釘釘群進行交流和技術分享。關注公衆号,鎖定每周精彩分享内容!