聊聊Spark的分區

2020-07-06 23:50:00

通過之前的文章

，大家應該了解到Spark會通過DAG将一個Spark job中用到的所有RDD劃分為不同的stage，每個stage内部都會有很多子任務處理資料，而每個stage的任務數是決定性能優劣的關鍵名額。

首先來了解一下Spark中分區的概念，其實就是将要處理的資料集根據一定的規則劃分為不同的子集，每個子集都算做一個單獨的分區，由叢集中不同的機器或者是同一台機器不同的core進行分區并行處理。

Spark對接不同的資料源，在第一次得到的分區數是不一樣的，但都有一個共性：對于map類算子或者通過map算子産生的彼此之間具有窄依賴關系的RDD的分區數，子RDD分區與父RDD分區是一緻的。而對于通過shuffle差生的子RDD則由分區器決定，當然預設分區器是HashPartitioner，我們完全可以根據實際業務場景進行自定義分區器，隻需繼承Parttioner元件，主要重寫幾個方法即可：

以加載hdfs檔案為例，Spark在讀取hdfs檔案還沒有調用其他算子進行業務處理前，得到的RDD分區數由什麼決定呢？關鍵在于檔案是否可切分！

對于可切分檔案，如text檔案，那麼通過加載檔案得到的RDD的分區數預設與該檔案的block數量保持一緻；

對于不可切分檔案，它隻有一個block塊，那麼得到的RDD的分區數預設也就是1。

當然，我們可以通過調用一些算子對RDD進行重分區，如repartition。

這裡必須要強調一點，很多小夥伴不了解，RDD既然不存儲資料，那麼加載過來的檔案都跑哪裡去了呢？這裡先給大家提個引子——blockmanager，Spark自己實作的存儲管理器。RDD的存儲概念其實block，至于block的大小可以根據不同的資料源進行調整，blockmanager的資料存儲、傳輸都是以block進行的。至于block内部傳輸的時候，它的大小也是可以通過參數控制的，比如廣播變量、shuffle傳輸時block的大小等

聊聊Spark的分區

繼續閱讀

華為筆試軟體

項目管理那些事兒

OS --written test1

OS-written test2

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

壓縮編碼M-JPEG、MPEG4、H.264

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

轉詳解C#資料庫存取圖檔三大方式

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結