天天看點

shuffle原理 及優化政策

1、shuffle操作原理:

在Spark中,資料通常不會跨分區分布,以滿足特定操作的需要。在計算期間,單
個任務将對單個分區進行操作——是以,要組織單個reduceByKey 的計算任務要執行
的所有資料,Spark需要執行一個all-to-all操作。它必須從所有分區中讀取所有
鍵的所有值,然後将所有分區的值放在一起計算每個鍵的最終結果——這稱為shuffle。
 
Spark中的某些操作會觸發稱為shuffle的事件。shuffle是Spark用于重新分發資料
的機制,以便跨分區對資料進行不同的分組。這通常涉及跨執行程式和機器複制資料,
使shuffle成為一項複雜而昂貴的操作。在Spark Core中,Shuffle是劃分寬窄依賴
依據Stage的依據

寬依賴:一對多 (有shuffle操作)
窄依賴:一對一 或者多對一
           

2、 Shuffle操作問題解決

2.1 資料傾斜原理

在進行shuffle的時候,必須将各個節點上相同的key拉取到某個節點上的一個task
來進行處理,此時如果某個key對應的資料量特别大的話,就會發生資料傾斜
(在實際生産中去null值是必須的)
           

2.2 資料傾斜問題發現與解決

通過Spark Web UI來檢視目前運作的stage各個task配置設定的資料量,進而進一步确定
是不是task配置設定的資料不均勻導緻了資料傾斜。
知道資料傾斜發生在哪一個stage之後,接着我們就需要根據stage劃分原理,推算出
來發生傾斜的那個stage對應代碼中的哪一部分,這部分代碼中肯定會有一個shuffle
類算子。
通過countByKey檢視各個key的分布。
           

2.3 資料傾斜解決方案

2.3.1 過濾少數導緻傾斜的key
2.3.2 提高shuffle操作的并行度
2.3.3 局部聚合和全局聚合
           

案例<一>:采樣傾斜key并分拆join操作(join的兩表都很大,但僅一個RDD的幾個key的資料量過大)

方案實作思路:

對包含少數幾個資料量過大的key的那個RDD,通過sample算子采樣出一份樣本來,然後統計一下每個key的數量,計算出來資料量最大的是哪幾個key。

然後将這幾個key對應的資料從原來的RDD中拆分出來,形成一個單獨的RDD,并給每個key都打上n以内的随機數作為字首,而不會導緻傾斜的大部分key形成另外一個RDD。

接着将需要join的另一個RDD,也過濾出來那幾個傾斜key對應的資料并形成一個單獨的RDD,将每條資料膨脹成n條資料,這n條資料都按順序附加一個0~n的字首,不會導緻傾斜的大部分key也形成另外一個RDD。

再将附加了随機字首的獨立RDD與另一個膨脹n倍的獨立RDD進行join,此時就可以将原先相同的key打散成n份,分散到多個task中去進行join了。

而另外兩個普通的RDD就照常join即可。

最後将兩次join的結果使用union算子合并起來即可,就是最終的join結果。

shuffle原理 及優化政策

案例<二>使用随機字首和擴容RDD進行join(RDD中有大量的key導緻資料傾斜)

方案實作思路:

   将含有較多傾斜key的RDD擴大多倍,與相對分布均勻的RDD配一個随機數。 

shuffle原理 及優化政策

4 spark shuffle參數調優

spark.shuffle.file.buffer

預設值:32k
參數說明:該參數用于設定shuffle write task的
BufferedOutputStream的buffer緩沖大小。将資料寫到磁盤檔案之前,會先寫入
buffer緩沖中,待緩沖寫滿之後,才會溢寫到磁盤。
           

調優建議:

如果作業可用的記憶體資源較為充足的話,可以适當增加這個參數的大小(比如64k),
進而減少shuffle write過程中溢寫磁盤檔案的次數,也就可以減少磁盤IO次數,
進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。
           

spark.reducer.maxSizeInFlight

預設值:48m
參數說明:該參數用于設定shuffle read task的buffer緩沖大小,而這個buffer
緩沖決定了每次能夠拉取多少資料。
           

調優建議:

如果作業可用的記憶體資源較為充足的話,可以适當增加這個參數的大小(比如96m),
進而減少拉取資料的次數,也就可以減少網絡傳輸的次數,進而提升性能。在實踐中
發現,合理調節該參數,性能會有1%~5%的提升。
           

spark.shuffle.io.maxRetries

預設值:3
參數說明:shuffle read task從shuffle write task所在節點拉取屬于自己的數
據時,如果因為網絡異常導緻拉取失敗,是會自動進行重試的。該參數就代表了可以
重試的最大次數。如果在指定次數之内拉取還是沒有成功,就可能會導緻作業執行
失敗。
           

調優建議:

對于那些包含了特别耗時的shuffle操作的作業,建議增加重試最大次數(比如60次)
,以避免由于JVM的full gc或者網絡不穩定等因素導緻的資料拉取失敗。在實踐中
發現,對于針對超大資料量(數十億~上百億)的shuffle過程,調節該參數可以大幅度
提升穩定性。
           

spark.shuffle.io.retryWait

預設值:5s
參數說明:具體解釋同上,該參數代表了每次重試拉取資料的等待間隔,預設是5s。
           

調優建議:

建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。
           

spark.shuffle.memoryFraction

預設值:0.2
           

參數說明:

該參數代表了Executor記憶體中,配置設定給shuffle read task進行聚合操作的記憶體比例,
預設是20%。
           

調優建議:

在資源參數調優中講解過這個參數。如果記憶體充足,而且很少使用持久化操作,建議
調高這個比例,給shuffle read的聚合操作更多記憶體,以避免由于記憶體不足導緻聚合
過程中頻繁讀寫磁盤。在實踐中發現,合理調節該參數可以将性能提升10%左右。
           

spark.shuffle.manager

預設值:sort
           

參數說明:

該參數用于設定ShuffleManager的類型。Spark 1.5以後,有三個可選項:hash、
sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項,但是
Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與
sort類似,但是使用了tungsten計劃中的堆外記憶體管理機制,記憶體使用效率更高。
           

調優建議:

由于SortShuffleManager預設會對資料進行排序,是以如果你的業務邏輯中需要該
排序機制的話,則使用預設的SortShuffleManager就可以;而如果你的業務邏輯不
需要對資料進行排序,那麼建議參考後面的幾個參數調優,通過bypass機制或優化的
HashShuffleManager來避免排序操作,同時提供較好的磁盤讀寫性能。這裡要注意
的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。
           

spark.shuffle.sort.bypassMergeThreshold

預設值:200
           

參數說明:

當ShuffleManager為SortShuffleManager時,如果shuffle read task的數量小于
這個門檻值(預設是200),則shuffle write過程中不會進行排序操作,而是直接按
照未經優化的HashShuffleManager的方式去寫資料,但是最後會将每個task産生的
所有臨時磁盤檔案都合并成一個檔案,并會建立單獨的索引檔案。
           

調優建議:

當你使用SortShuffleManager時,如果的确不需要排序操作,那麼建議将這個參數
調大一些,大于shuffle read task的數量。那麼此時就會自動啟用bypass機制,
map-side就不會進行排序了,減少了排序的性能開銷。但是這種方式下,依然會産
生大量的磁盤檔案,是以shuffle write性能有待提高。
           

spark.shuffle.consolidateFiles

預設值:false
           

參數說明:

如果使用HashShuffleManager,該參數有效。如果設定為true,那麼就會開啟
consolidate機制,會大幅度合并shuffle write的輸出檔案,對于shuffle read
task數量特别多的情況下,這種方法可以極大地減少磁盤IO開銷,提升性能。
           

調優建議:

如果的确不需要SortShuffleManager的排序機制,那麼除了使用bypass機制,還可
以嘗試将spark.shffle.manager參數手動指定為hash,使用HashShuffleManager,
同時開啟consolidate機制。在實踐中嘗試過,發現其性能比開啟了bypass機制的
SortShuffleManager要高出10%~30%。
           

繼續閱讀