天天看點

Spark學習之路 (十)SparkCore的調優之Shuffle調優

《2021年最新版大資料面試題全面開啟更新》

歡迎關注github《大資料成神之路》

目錄

一、概述

二、shuffle的定義

三、ShuffleManager發展概述

四、HashShuffleManager的運作原理

4.1 未經優化的HashShuffleManager

4.2 優化後的HashShuffleManager

五、SortShuffleManager運作原理

5.1 普通運作機制

5.2 bypass運作機制

六、shuffle相關參數調優

spark.shuffle.file.buffer

spark.reducer.maxSizeInFlight

spark.shuffle.io.maxRetries

spark.shuffle.io.retryWait

spark.shuffle.memoryFraction(已經棄用)

spark.shuffle.manager(已經棄用)

spark.shuffle.sort.bypassMergeThreshold

spark.shuffle.consolidateFiles(已經棄用)

大多數Spark作業的性能主要就是消耗在了shuffle環節,因為該環節包含了大量的磁盤IO、序列化、網絡資料傳輸等操作。是以,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提醒大家的是,影響一個Spark作業性能的因素,主要還是代碼開發、資源參數以及資料傾斜,shuffle調優隻能在整個Spark的性能調優中占到一小部分而已。是以大家務必把握住調優的基本原則,千萬不要舍本逐末。下面我們就給大家詳細講解shuffle的原理,以及相關參數的說明,同時給出各個參數的調優建議。

二、shuffle的定義

Spark的運作主要分為2部分:

  一部分是驅動程式,其核心是SparkContext;

  另一部分是Worker節點上Task,它是運作實際任務的。程式運作的時候,Driver和Executor程序互相互動:運作什麼任務,即Driver會配置設定Task到Executor,Driver 跟 Executor 進行網絡傳輸; 任務資料從哪兒擷取,即Task要從 Driver 抓取其他上遊的 Task 的資料結果,是以有這個過程中就不斷的産生網絡結果。其中,下一個 Stage 向上一個 Stage 要資料這個過程,我們就稱之為 Shuffle。

三、ShuffleManager發展概述

在Spark的源碼中,負責shuffle過程的執行、計算和處理的元件主要就是ShuffleManager,也即shuffle管理器。而随着Spark的版本的發展,ShuffleManager也在不斷疊代,變得越來越先進。

在Spark 1.2以前,預設的shuffle計算引擎是HashShuffleManager。該ShuffleManager而HashShuffleManager有着一個非常嚴重的弊端,就是會産生大量的中間磁盤檔案,進而由大量的磁盤IO操作影響了性能。

是以在Spark 1.2以後的版本中,預設的ShuffleManager改成了SortShuffleManager。SortShuffleManager相較于HashShuffleManager來說,有了一定的改進。主要就在于,每個Task在進行shuffle操作時,雖然也會産生較多的臨時磁盤檔案,但是最後會将所有的臨時檔案合并(merge)成一個磁盤檔案,是以每個Task就隻有一個磁盤檔案。在下一個stage的shuffle read task拉取自己的資料時,隻要根據索引讀取每個磁盤檔案中的部分資料即可。

下面我們詳細分析一下HashShuffleManager和SortShuffleManager的原理。

四、HashShuffleManager的運作原理

4.1 未經優化的HashShuffleManager

圖解說明

Spark學習之路 (十)SparkCore的調優之Shuffle調優

文字說明

上圖說明了未經優化的HashShuffleManager的原理。這裡我們先明确一個假設前提:每個Executor隻有1個CPU core,也就是說,無論這個Executor上配置設定多少個task線程,同一時間都隻能執行一個task線程。

我們先從shuffle write開始說起。shuffle write階段,主要就是在一個stage結束計算之後,為了下一個stage可以執行shuffle類的算子(比如reduceByKey),而将每個task處理的資料按key進行“分類”。所謂“分類”,就是對相同的key執行hash算法,進而将相同key都寫入同一個磁盤檔案中,而每一個磁盤檔案都隻屬于下遊stage的一個task。在将資料寫入磁盤之前,會先将資料寫入記憶體緩沖中,當記憶體緩沖填滿之後,才會溢寫到磁盤檔案中去。

那麼每個執行shuffle write的task,要為下一個stage建立多少個磁盤檔案呢?很簡單,下一個stage的task有多少個,目前stage的每個task就要建立多少份磁盤檔案。比如下一個stage總共有100個task,那麼目前stage的每個task都要建立100份磁盤檔案。如果目前stage有50個task,總共有10個Executor,每個Executor執行5個Task,那麼每個Executor上總共就要建立500個磁盤檔案,所有Executor上會建立5000個磁盤檔案。由此可見,未經優化的shuffle write操作所産生的磁盤檔案的數量是極其驚人的。

接着我們來說說shuffle read。shuffle read,通常就是一個stage剛開始時要做的事情。此時該stage的每一個task就需要将上一個stage的計算結果中的所有相同key,從各個節點上通過網絡都拉取到自己所在的節點上,然後進行key的聚合或連接配接等操作。由于shuffle write的過程中,task給下遊stage的每個task都建立了一個磁盤檔案,是以shuffle read的過程中,每個task隻要從上遊stage的所有task所在節點上,拉取屬于自己的那一個磁盤檔案即可。

shuffle read的拉取過程是一邊拉取一邊進行聚合的。每個shuffle read task都會有一個自己的buffer緩沖,每次都隻能拉取與buffer緩沖相同大小的資料,然後通過記憶體中的一個Map進行聚合等操作。聚合完一批資料後,再拉取下一批資料,并放到buffer緩沖中進行聚合操作。以此類推,直到最後将所有資料到拉取完,并得到最終的結果。

4.2 優化後的HashShuffleManager

Spark學習之路 (十)SparkCore的調優之Shuffle調優

上圖說明了優化後的HashShuffleManager的原理。這裡說的優化,是指我們可以設定一個參數,spark.shuffle.consolidateFiles。該參數預設值為false,将其設定為true即可開啟優化機制。通常來說,如果我們使用HashShuffleManager,那麼都建議開啟這個選項。

開啟consolidate機制之後,在shuffle write過程中,task就不是為下遊stage的每個task建立一個磁盤檔案了。此時會出現shuffleFileGroup的概念,每個shuffleFileGroup會對應一批磁盤檔案,磁盤檔案的數量與下遊stage的task數量是相同的。一個Executor上有多少個CPU core,就可以并行執行多少個task。而第一批并行執行的每個task都會建立一個shuffleFileGroup,并将資料寫入對應的磁盤檔案内。

當Executor的CPU core執行完一批task,接着執行下一批task時,下一批task就會複用之前已有的shuffleFileGroup,包括其中的磁盤檔案。也就是說,此時task會将資料寫入已有的磁盤檔案中,而不會寫入新的磁盤檔案中。是以,consolidate機制允許不同的task複用同一批磁盤檔案,這樣就可以有效将多個task的磁盤檔案進行一定程度上的合并,進而大幅度減少磁盤檔案的數量,進而提升shuffle write的性能。

假設第二個stage有100個task,第一個stage有50個task,總共還是有10個Executor,每個Executor執行5個task。那麼原本使用未經優化的HashShuffleManager時,每個Executor會産生500個磁盤檔案,所有Executor會産生5000個磁盤檔案的。但是此時經過優化之後,每個Executor建立的磁盤檔案的數量的計算公式為:CPU core的數量 * 下一個stage的task數量。也就是說,每個Executor此時隻會建立100個磁盤檔案,所有Executor隻會建立1000個磁盤檔案。

五、SortShuffleManager運作原理

SortShuffleManager的運作機制主要分成兩種,一種是普通運作機制,另一種是bypass運作機制。當shuffle read task的數量小于等于spark.shuffle.sort.bypassMergeThreshold參數的值時(預設為200),就會啟用bypass機制。

5.1 普通運作機制

Spark學習之路 (十)SparkCore的調優之Shuffle調優

上圖說明了普通的SortShuffleManager的原理。在該模式下,資料會先寫入一個記憶體資料結構中,此時根據不同的shuffle算子,可能選用不同的資料結構。如果是reduceByKey這種聚合類的shuffle算子,那麼會選用Map資料結構,一邊通過Map進行聚合,一邊寫入記憶體;如果是join這種普通的shuffle算子,那麼會選用Array資料結構,直接寫入記憶體。接着,每寫一條資料進入記憶體資料結構之後,就會判斷一下,是否達到了某個臨界門檻值。如果達到臨界門檻值的話,那麼就會嘗試将記憶體資料結構中的資料溢寫到磁盤,然後清空記憶體資料結構。

在溢寫到磁盤檔案之前,會先根據key對記憶體資料結構中已有的資料進行排序。排序過後,會分批将資料寫入磁盤檔案。預設的batch數量是10000條,也就是說,排序好的資料,會以每批1萬條資料的形式分批寫入磁盤檔案。寫入磁盤檔案是通過Java的BufferedOutputStream實作的。BufferedOutputStream是Java的緩沖輸出流,首先會将資料緩沖在記憶體中,當記憶體緩沖滿溢之後再一次寫入磁盤檔案中,這樣可以減少磁盤IO次數,提升性能。

一個task将所有資料寫入記憶體資料結構的過程中,會發生多次磁盤溢寫操作,也就會産生多個臨時檔案。最後會将之前所有的臨時磁盤檔案都進行合并,這就是merge過程,此時會将之前所有臨時磁盤檔案中的資料讀取出來,然後依次寫入最終的磁盤檔案之中。此外,由于一個task就隻對應一個磁盤檔案,也就意味着該task為下遊stage的task準備的資料都在這一個檔案中,是以還會單獨寫一份索引檔案,其中辨別了下遊各個task的資料在檔案中的start offset與end offset。

SortShuffleManager由于有一個磁盤檔案merge的過程,是以大大減少了檔案數量。比如第一個stage有50個task,總共有10個Executor,每個Executor執行5個task,而第二個stage有100個task。由于每個task最終隻有一個磁盤檔案,是以此時每個Executor上隻有5個磁盤檔案,所有Executor隻有50個磁盤檔案。

5.2 bypass運作機制

Spark學習之路 (十)SparkCore的調優之Shuffle調優

上圖說明了bypass SortShuffleManager的原理。bypass運作機制的觸發條件如下:

  • shuffle map task數量小于spark.shuffle.sort.bypassMergeThreshold參數的值。
  • 不是聚合類的shuffle算子(比如reduceByKey)。

此時task會為每個下遊task都建立一個臨時磁盤檔案,并将資料按key進行hash然後根據key的hash值,将key寫入對應的磁盤檔案之中。當然,寫入磁盤檔案時也是先寫入記憶體緩沖,緩沖寫滿之後再溢寫到磁盤檔案的。最後,同樣會将所有臨時磁盤檔案都合并成一個磁盤檔案,并建立一個單獨的索引檔案。

該過程的磁盤寫機制其實跟未經優化的HashShuffleManager是一模一樣的,因為都要建立數量驚人的磁盤檔案,隻是在最後會做一個磁盤檔案的合并而已。是以少量的最終磁盤檔案,也讓該機制相對未經優化的HashShuffleManager來說,shuffle read的性能會更好。

而該機制與普通SortShuffleManager運作機制的不同在于:第一,磁盤寫機制不同;第二,不會進行排序。也就是說,啟用該機制的最大好處在于,shuffle write過程中,不需要進行資料的排序操作,也就節省掉了這部分的性能開銷。

六、shuffle相關參數調優

以下是Shffule過程中的一些主要參數,這裡詳細講解了各個參數的功能、預設值以及基于實踐經驗給出的調優建議。

Spark各個版本的參數預設值可能會有不同,具體使用請參考官方網站的說明:

(1)先選擇對應的Spark版本:http://spark.apache.org/documentation.html

(2)再檢視對應的文檔說明

Spark學習之路 (十)SparkCore的調優之Shuffle調優

spark.shuffle.file.buffer

  • 預設值:32k
  • 參數說明:該參數用于設定shuffle write task的BufferedOutputStream的buffer緩沖大小。将資料寫到磁盤檔案之前,會先寫入buffer緩沖中,待緩沖寫滿之後,才會溢寫到磁盤。
  • 調優建議:如果作業可用的記憶體資源較為充足的話,可以适當增加這個參數的大小(比如64k),進而減少shuffle write過程中溢寫磁盤檔案的次數,也就可以減少磁盤IO次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

  • 預設值:48m
  • 參數說明:該參數用于設定shuffle read task的buffer緩沖大小,而這個buffer緩沖決定了每次能夠拉取多少資料。
  • 調優建議:如果作業可用的記憶體資源較為充足的話,可以适當增加這個參數的大小(比如96m),進而減少拉取資料的次數,也就可以減少網絡傳輸的次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

  • 預設值:3
  • 參數說明:shuffle read task從shuffle write task所在節點拉取屬于自己的資料時,如果因為網絡異常導緻拉取失敗,是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之内拉取還是沒有成功,就可能會導緻作業執行失敗。
  • 調優建議:對于那些包含了特别耗時的shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由于JVM的full gc或者網絡不穩定等因素導緻的資料拉取失敗。在實踐中發現,對于針對超大資料量(數十億~上百億)的shuffle過程,調節該參數可以大幅度提升穩定性。

spark.shuffle.io.retryWait

  • 預設值:5s
  • 參數說明:具體解釋同上,該參數代表了每次重試拉取資料的等待間隔,預設是5s。
  • 調優建議:建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction(已經棄用)

  • 預設值:0.2
  • 參數說明:該參數代表了Executor記憶體中,配置設定給shuffle read task進行聚合操作的記憶體比例,預設是20%。
  • 調優建議:在資源參數調優中講解過這個參數。如果記憶體充足,而且很少使用持久化操作,建議調高這個比例,給shuffle read的聚合操作更多記憶體,以避免由于記憶體不足導緻聚合過程中頻繁讀寫磁盤。在實踐中發現,合理調節該參數可以将性能提升10%左右。

spark.shuffle.manager(已經棄用)

  • 預設值:sort
  • 參數說明:該參數用于設定ShuffleManager的類型。Spark 1.5以後,有三個可選項:hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項,但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似,但是使用了tungsten計劃中的堆外記憶體管理機制,記憶體使用效率更高。
  • 調優建議:由于SortShuffleManager預設會對資料進行排序,是以如果你的業務邏輯中需要該排序機制的話,則使用預設的SortShuffleManager就可以;而如果你的業務邏輯不需要對資料進行排序,那麼建議參考後面的幾個參數調優,通過bypass機制或優化的HashShuffleManager來避免排序操作,同時提供較好的磁盤讀寫性能。這裡要注意的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

  • 預設值:200
  • 參數說明:當ShuffleManager為SortShuffleManager時,如果shuffle read task的數量小于這個門檻值(預設是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的HashShuffleManager的方式去寫資料,但是最後會将每個task産生的所有臨時磁盤檔案都合并成一個檔案,并會建立單獨的索引檔案。
  • 調優建議:當你使用SortShuffleManager時,如果的确不需要排序操作,那麼建議将這個參數調大一些,大于shuffle read task的數量。那麼此時就會自動啟用bypass機制,map-side就不會進行排序了,減少了排序的性能開銷。但是這種方式下,依然會産生大量的磁盤檔案,是以shuffle write性能有待提高。

spark.shuffle.consolidateFiles(已經棄用)

  • 預設值:false
  • 參數說明:如果使用HashShuffleManager,該參數有效。如果設定為true,那麼就會開啟consolidate機制,會大幅度合并shuffle write的輸出檔案,對于shuffle read task數量特别多的情況下,這種方法可以極大地減少磁盤IO開銷,提升性能。
  • 調優建議:如果的确不需要SortShuffleManager的排序機制,那麼除了使用bypass機制,還可以嘗試将spark.shffle.manager參數手動指定為hash,使用HashShuffleManager,同時開啟consolidate機制。在實踐中嘗試過,發現其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

繼續閱讀