天天看點

Spark 大資料處理最佳實踐

開源大資料社群 & 阿裡雲 EMR 系列直播 第十一期

主題:Spark 大資料處理最佳實踐

講師:簡鋒,阿裡雲 EMR 資料開發平台 負責人

内容架構:

  • 大資料概覽
  • 如何擺脫技術小白
  • Spark SQL 學習架構
  • EMR Studio 上的大資料最佳實踐

直播回放:掃描文章底部二維碼加入釘群觀看回放,或進傳入連結接

https://developer.aliyun.com/live/247072

一、大資料概覽

  • 大資料處理 ETL (Data → Data)
  • 大資料分析 BI  (Data → Dashboard)
  • 機器學習 AI   (Data → Model)
Spark 大資料處理最佳實踐

二、如何擺脫技術小白

什麼是技術小白?

  • 隻懂表面,不懂本質

比如:隻懂得參考别人的 Spark 代碼,不懂得 Spark 的内在機制,不懂得如何調優 Spark Job

擺脫技術小白的藥方

  • 懂得運作機制
  • 學會配置
  • 學會看 Log

懂得運作機制:Spark SQL Architecture

Spark 大資料處理最佳實踐

學會配置:如何配置 Spark App

  • 配置 Driver

• spark.driver.memory

• spark.driver.cores

  • 配置 Executor

• spark.executor.memory

• spark.executor.cores

  • 配置 Runtime

• spark.files

• spark.jars

  • 配置 DAE
  • …..........

參考網址:https://spark.apache.org/docs/latest/configuration.html

學會看 Log:Spark Log

Spark 大資料處理最佳實踐

三、Spark SQL  學習架構

Spark SQL 學習架構( 結合圖形/幾何)

1. Select Rows

Spark 大資料處理最佳實踐
Spark 大資料處理最佳實踐

2. Select Columns

Spark 大資料處理最佳實踐
Spark 大資料處理最佳實踐

3. Transform Column

Spark 大資料處理最佳實踐
Spark 大資料處理最佳實踐

4. Group By / Aggregation

Spark 大資料處理最佳實踐
Spark 大資料處理最佳實踐

5. Join

Spark 大資料處理最佳實踐
Spark 大資料處理最佳實踐

Spark SQL 執行計劃

1. Spark SQL - Where

Spark 大資料處理最佳實踐

2. Spark SQL - Group By

Spark 大資料處理最佳實踐

3. Spark SQL - Order by

Spark 大資料處理最佳實踐

四、EMR Studio 實踐

EMR Studio 特性:

  • 相容開源元件
  • 支援連接配接多個叢集
  • 适配多個計算引擎
  • 互動式開發 + 作業排程無縫銜接
  • 适用多種大資料應用場景
  • 計算存儲分離

1. 相容開源元件

  • EMR Studio 在開源軟體 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優化了做了優化和增強。
Spark 大資料處理最佳實踐

2. 支援連接配接多個叢集

  • 一個 EMR Studio 可以連接配接多個 EMR 計算叢集,您可以很友善地切換計算叢集,送出作業到不同的計算叢集上運作。
Spark 大資料處理最佳實踐

3. 适配多個計算引擎

  • 自動适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多個計算引擎,無需複雜配置,多個計算引擎間協同工作
Spark 大資料處理最佳實踐

4. 互動式開發 + 作業排程無縫銜接

Notebook + Airflow : 無縫銜接開發環節和生産排程環節

  • 利用互動式開發模式可以快速驗證作業的正确性.
  • 在 Airflow 裡排程 Notebook 作業,最大程度得保證開發環境和生産環境的一緻性,防止由于開發階段和生産階段環境不一緻而導緻的問題。
Spark 大資料處理最佳實踐

5. 适用多種大資料應用場景

  • 大資料處理 ETL
  • 互動式資料分析
  • 機器學習
  • 實時計算

6. 計算存儲分離

  • 所有資料都儲存在 OSS 上,包括:

• 使用者 Notebook 代碼

• 排程作業 Log

  • 即使叢集銷毀,也可以重建叢集輕松恢複資料
Spark 大資料處理最佳實踐

EMR Studio Demo 示範:

參考文檔:

https:// help.aliyun.com / document_detail /208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

⭐具體産品介紹和示範,可以掃描文章底部釘釘群二維碼,進群觀看直播回放哦!

也可以點選以下連結直接觀看回放:

後續我們會在釘釘群定期推送精彩案例,邀請更多技術大牛直播分享。歡迎有興趣的同學掃下方二維碼加入釘釘群進行交流和技術分享。關注公衆号,鎖定每周精彩分享内容!

Spark 大資料處理最佳實踐