Spark學習之路（十）SparkCore的調優之Shuffle調優

《2021年最新版大資料面試題全面開啟更新》

歡迎關注github《大資料成神之路》

一、概述

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運作原理

4.1　未經優化的HashShuffleManager

4.2　優化後的HashShuffleManager

五、SortShuffleManager運作原理

5.1　普通運作機制

5.2　bypass運作機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.memoryFraction（已經棄用）

spark.shuffle.manager（已經棄用）

spark.shuffle.sort.bypassMergeThreshold

spark.shuffle.consolidateFiles（已經棄用）

大多數Spark作業的性能主要就是消耗在了shuffle環節，因為該環節包含了大量的磁盤IO、序列化、網絡資料傳輸等操作。是以，如果要讓作業的性能更上一層樓，就有必要對shuffle過程進行調優。但是也必須提醒大家的是，影響一個Spark作業性能的因素，主要還是代碼開發、資源參數以及資料傾斜，shuffle調優隻能在整個Spark的性能調優中占到一小部分而已。是以大家務必把握住調優的基本原則，千萬不要舍本逐末。下面我們就給大家詳細講解shuffle的原理，以及相關參數的說明，同時給出各個參數的調優建議。

二、shuffle的定義

Spark的運作主要分為2部分：

　　一部分是驅動程式，其核心是SparkContext；

　　另一部分是Worker節點上Task,它是運作實際任務的。程式運作的時候，Driver和Executor程序互相互動：運作什麼任務，即Driver會配置設定Task到Executor，Driver 跟 Executor 進行網絡傳輸; 任務資料從哪兒擷取，即Task要從 Driver 抓取其他上遊的 Task 的資料結果，是以有這個過程中就不斷的産生網絡結果。其中，下一個 Stage 向上一個 Stage 要資料這個過程，我們就稱之為 Shuffle。

三、ShuffleManager發展概述

在Spark的源碼中，負責shuffle過程的執行、計算和處理的元件主要就是ShuffleManager，也即shuffle管理器。而随着Spark的版本的發展，ShuffleManager也在不斷疊代，變得越來越先進。

在Spark 1.2以前，預設的shuffle計算引擎是HashShuffleManager。該ShuffleManager而HashShuffleManager有着一個非常嚴重的弊端，就是會産生大量的中間磁盤檔案，進而由大量的磁盤IO操作影響了性能。

是以在Spark 1.2以後的版本中，預設的ShuffleManager改成了SortShuffleManager。SortShuffleManager相較于HashShuffleManager來說，有了一定的改進。主要就在于，每個Task在進行shuffle操作時，雖然也會産生較多的臨時磁盤檔案，但是最後會将所有的臨時檔案合并（merge）成一個磁盤檔案，是以每個Task就隻有一個磁盤檔案。在下一個stage的shuffle read task拉取自己的資料時，隻要根據索引讀取每個磁盤檔案中的部分資料即可。

下面我們詳細分析一下HashShuffleManager和SortShuffleManager的原理。

四、HashShuffleManager的運作原理

4.1　未經優化的HashShuffleManager

圖解說明

文字說明

上圖說明了未經優化的HashShuffleManager的原理。這裡我們先明确一個假設前提：每個Executor隻有1個CPU core，也就是說，無論這個Executor上配置設定多少個task線程，同一時間都隻能執行一個task線程。

我們先從shuffle write開始說起。shuffle write階段，主要就是在一個stage結束計算之後，為了下一個stage可以執行shuffle類的算子（比如reduceByKey），而将每個task處理的資料按key進行“分類”。所謂“分類”，就是對相同的key執行hash算法，進而将相同key都寫入同一個磁盤檔案中，而每一個磁盤檔案都隻屬于下遊stage的一個task。在将資料寫入磁盤之前，會先将資料寫入記憶體緩沖中，當記憶體緩沖填滿之後，才會溢寫到磁盤檔案中去。

那麼每個執行shuffle write的task，要為下一個stage建立多少個磁盤檔案呢？很簡單，下一個stage的task有多少個，目前stage的每個task就要建立多少份磁盤檔案。比如下一個stage總共有100個task，那麼目前stage的每個task都要建立100份磁盤檔案。如果目前stage有50個task，總共有10個Executor，每個Executor執行5個Task，那麼每個Executor上總共就要建立500個磁盤檔案，所有Executor上會建立5000個磁盤檔案。由此可見，未經優化的shuffle write操作所産生的磁盤檔案的數量是極其驚人的。

接着我們來說說shuffle read。shuffle read，通常就是一個stage剛開始時要做的事情。此時該stage的每一個task就需要将上一個stage的計算結果中的所有相同key，從各個節點上通過網絡都拉取到自己所在的節點上，然後進行key的聚合或連接配接等操作。由于shuffle write的過程中，task給下遊stage的每個task都建立了一個磁盤檔案，是以shuffle read的過程中，每個task隻要從上遊stage的所有task所在節點上，拉取屬于自己的那一個磁盤檔案即可。

shuffle read的拉取過程是一邊拉取一邊進行聚合的。每個shuffle read task都會有一個自己的buffer緩沖，每次都隻能拉取與buffer緩沖相同大小的資料，然後通過記憶體中的一個Map進行聚合等操作。聚合完一批資料後，再拉取下一批資料，并放到buffer緩沖中進行聚合操作。以此類推，直到最後将所有資料到拉取完，并得到最終的結果。

4.2　優化後的HashShuffleManager

上圖說明了優化後的HashShuffleManager的原理。這裡說的優化，是指我們可以設定一個參數，spark.shuffle.consolidateFiles。該參數預設值為false，将其設定為true即可開啟優化機制。通常來說，如果我們使用HashShuffleManager，那麼都建議開啟這個選項。

開啟consolidate機制之後，在shuffle write過程中，task就不是為下遊stage的每個task建立一個磁盤檔案了。此時會出現shuffleFileGroup的概念，每個shuffleFileGroup會對應一批磁盤檔案，磁盤檔案的數量與下遊stage的task數量是相同的。一個Executor上有多少個CPU core，就可以并行執行多少個task。而第一批并行執行的每個task都會建立一個shuffleFileGroup，并将資料寫入對應的磁盤檔案内。

當Executor的CPU core執行完一批task，接着執行下一批task時，下一批task就會複用之前已有的shuffleFileGroup，包括其中的磁盤檔案。也就是說，此時task會将資料寫入已有的磁盤檔案中，而不會寫入新的磁盤檔案中。是以，consolidate機制允許不同的task複用同一批磁盤檔案，這樣就可以有效将多個task的磁盤檔案進行一定程度上的合并，進而大幅度減少磁盤檔案的數量，進而提升shuffle write的性能。

假設第二個stage有100個task，第一個stage有50個task，總共還是有10個Executor，每個Executor執行5個task。那麼原本使用未經優化的HashShuffleManager時，每個Executor會産生500個磁盤檔案，所有Executor會産生5000個磁盤檔案的。但是此時經過優化之後，每個Executor建立的磁盤檔案的數量的計算公式為：CPU core的數量 * 下一個stage的task數量。也就是說，每個Executor此時隻會建立100個磁盤檔案，所有Executor隻會建立1000個磁盤檔案。

五、SortShuffleManager運作原理

SortShuffleManager的運作機制主要分成兩種，一種是普通運作機制，另一種是bypass運作機制。當shuffle read task的數量小于等于spark.shuffle.sort.bypassMergeThreshold參數的值時（預設為200），就會啟用bypass機制。

5.1　普通運作機制

上圖說明了普通的SortShuffleManager的原理。在該模式下，資料會先寫入一個記憶體資料結構中，此時根據不同的shuffle算子，可能選用不同的資料結構。如果是reduceByKey這種聚合類的shuffle算子，那麼會選用Map資料結構，一邊通過Map進行聚合，一邊寫入記憶體；如果是join這種普通的shuffle算子，那麼會選用Array資料結構，直接寫入記憶體。接着，每寫一條資料進入記憶體資料結構之後，就會判斷一下，是否達到了某個臨界門檻值。如果達到臨界門檻值的話，那麼就會嘗試将記憶體資料結構中的資料溢寫到磁盤，然後清空記憶體資料結構。

在溢寫到磁盤檔案之前，會先根據key對記憶體資料結構中已有的資料進行排序。排序過後，會分批将資料寫入磁盤檔案。預設的batch數量是10000條，也就是說，排序好的資料，會以每批1萬條資料的形式分批寫入磁盤檔案。寫入磁盤檔案是通過Java的BufferedOutputStream實作的。BufferedOutputStream是Java的緩沖輸出流，首先會将資料緩沖在記憶體中，當記憶體緩沖滿溢之後再一次寫入磁盤檔案中，這樣可以減少磁盤IO次數，提升性能。

一個task将所有資料寫入記憶體資料結構的過程中，會發生多次磁盤溢寫操作，也就會産生多個臨時檔案。最後會将之前所有的臨時磁盤檔案都進行合并，這就是merge過程，此時會将之前所有臨時磁盤檔案中的資料讀取出來，然後依次寫入最終的磁盤檔案之中。此外，由于一個task就隻對應一個磁盤檔案，也就意味着該task為下遊stage的task準備的資料都在這一個檔案中，是以還會單獨寫一份索引檔案，其中辨別了下遊各個task的資料在檔案中的start offset與end offset。

SortShuffleManager由于有一個磁盤檔案merge的過程，是以大大減少了檔案數量。比如第一個stage有50個task，總共有10個Executor，每個Executor執行5個task，而第二個stage有100個task。由于每個task最終隻有一個磁盤檔案，是以此時每個Executor上隻有5個磁盤檔案，所有Executor隻有50個磁盤檔案。

5.2　bypass運作機制

上圖說明了bypass SortShuffleManager的原理。bypass運作機制的觸發條件如下：

shuffle map task數量小于spark.shuffle.sort.bypassMergeThreshold參數的值。

不是聚合類的shuffle算子（比如reduceByKey）。

此時task會為每個下遊task都建立一個臨時磁盤檔案，并将資料按key進行hash然後根據key的hash值，将key寫入對應的磁盤檔案之中。當然，寫入磁盤檔案時也是先寫入記憶體緩沖，緩沖寫滿之後再溢寫到磁盤檔案的。最後，同樣會将所有臨時磁盤檔案都合并成一個磁盤檔案，并建立一個單獨的索引檔案。

該過程的磁盤寫機制其實跟未經優化的HashShuffleManager是一模一樣的，因為都要建立數量驚人的磁盤檔案，隻是在最後會做一個磁盤檔案的合并而已。是以少量的最終磁盤檔案，也讓該機制相對未經優化的HashShuffleManager來說，shuffle read的性能會更好。

而該機制與普通SortShuffleManager運作機制的不同在于：第一，磁盤寫機制不同；第二，不會進行排序。也就是說，啟用該機制的最大好處在于，shuffle write過程中，不需要進行資料的排序操作，也就節省掉了這部分的性能開銷。

六、shuffle相關參數調優

以下是Shffule過程中的一些主要參數，這裡詳細講解了各個參數的功能、預設值以及基于實踐經驗給出的調優建議。

Spark各個版本的參數預設值可能會有不同，具體使用請參考官方網站的說明：

（1）先選擇對應的Spark版本：http://spark.apache.org/documentation.html

（2）再檢視對應的文檔說明

spark.shuffle.file.buffer

預設值：32k
參數說明：該參數用于設定shuffle write task的BufferedOutputStream的buffer緩沖大小。将資料寫到磁盤檔案之前，會先寫入buffer緩沖中，待緩沖寫滿之後，才會溢寫到磁盤。
調優建議：如果作業可用的記憶體資源較為充足的話，可以适當增加這個參數的大小（比如64k），進而減少shuffle write過程中溢寫磁盤檔案的次數，也就可以減少磁盤IO次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

預設值：48m
參數說明：該參數用于設定shuffle read task的buffer緩沖大小，而這個buffer緩沖決定了每次能夠拉取多少資料。
調優建議：如果作業可用的記憶體資源較為充足的話，可以适當增加這個參數的大小（比如96m），進而減少拉取資料的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

預設值：3
參數說明：shuffle read task從shuffle write task所在節點拉取屬于自己的資料時，如果因為網絡異常導緻拉取失敗，是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之内拉取還是沒有成功，就可能會導緻作業執行失敗。
調優建議：對于那些包含了特别耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由于JVM的full gc或者網絡不穩定等因素導緻的資料拉取失敗。在實踐中發現，對于針對超大資料量（數十億~上百億）的shuffle過程，調節該參數可以大幅度提升穩定性。

spark.shuffle.io.retryWait

預設值：5s
參數說明：具體解釋同上，該參數代表了每次重試拉取資料的等待間隔，預設是5s。
調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction（已經棄用）

預設值：0.2
參數說明：該參數代表了Executor記憶體中，配置設定給shuffle read task進行聚合操作的記憶體比例，預設是20%。
調優建議：在資源參數調優中講解過這個參數。如果記憶體充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多記憶體，以避免由于記憶體不足導緻聚合過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以将性能提升10%左右。

spark.shuffle.manager（已經棄用）

預設值：sort
參數說明：該參數用于設定ShuffleManager的類型。Spark 1.5以後，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項，但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外記憶體管理機制，記憶體使用效率更高。
調優建議：由于SortShuffleManager預設會對資料進行排序，是以如果你的業務邏輯中需要該排序機制的話，則使用預設的SortShuffleManager就可以；而如果你的業務邏輯不需要對資料進行排序，那麼建議參考後面的幾個參數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這裡要注意的是，tungsten-sort要慎用，因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

預設值：200
參數說明：當ShuffleManager為SortShuffleManager時，如果shuffle read task的數量小于這個門檻值（預設是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫資料，但是最後會将每個task産生的所有臨時磁盤檔案都合并成一個檔案，并會建立單獨的索引檔案。
調優建議：當你使用SortShuffleManager時，如果的确不需要排序操作，那麼建議将這個參數調大一些，大于shuffle read task的數量。那麼此時就會自動啟用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會産生大量的磁盤檔案，是以shuffle write性能有待提高。

spark.shuffle.consolidateFiles（已經棄用）

預設值：false
參數說明：如果使用HashShuffleManager，該參數有效。如果設定為true，那麼就會開啟consolidate機制，會大幅度合并shuffle write的輸出檔案，對于shuffle read task數量特别多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。
調優建議：如果的确不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可以嘗試将spark.shffle.manager參數手動指定為hash，使用HashShuffleManager，同時開啟consolidate機制。在實踐中嘗試過，發現其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

Spark學習之路（十）SparkCore的調優之Shuffle調優

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運作原理

4.1　未經優化的HashShuffleManager

4.2　優化後的HashShuffleManager

五、SortShuffleManager運作原理

5.1　普通運作機制

5.2　bypass運作機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.memoryFraction（已經棄用）

spark.shuffle.manager（已經棄用）

spark.shuffle.sort.bypassMergeThreshold

spark.shuffle.consolidateFiles（已經棄用）

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

Spark學習之路 （十）SparkCore的調優之Shuffle調優

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運作原理

4.1 未經優化的HashShuffleManager

4.2 優化後的HashShuffleManager

五、SortShuffleManager運作原理

5.1 普通運作機制

5.2 bypass運作機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.memoryFraction（已經棄用）

spark.shuffle.manager（已經棄用）

spark.shuffle.sort.bypassMergeThreshold

spark.shuffle.consolidateFiles（已經棄用）

繼續閱讀

Spark學習之路（十）SparkCore的調優之Shuffle調優

4.1　未經優化的HashShuffleManager

4.2　優化後的HashShuffleManager

5.1　普通運作機制

5.2　bypass運作機制