shuffle原理及優化政策

1、shuffle操作原理：

在Spark中，資料通常不會跨分區分布，以滿足特定操作的需要。在計算期間，單
個任務将對單個分區進行操作——是以，要組織單個reduceByKey 的計算任務要執行
的所有資料，Spark需要執行一個all-to-all操作。它必須從所有分區中讀取所有
鍵的所有值，然後将所有分區的值放在一起計算每個鍵的最終結果——這稱為shuffle。
 
Spark中的某些操作會觸發稱為shuffle的事件。shuffle是Spark用于重新分發資料
的機制，以便跨分區對資料進行不同的分組。這通常涉及跨執行程式和機器複制資料，
使shuffle成為一項複雜而昂貴的操作。在Spark Core中,Shuffle是劃分寬窄依賴
依據Stage的依據

寬依賴：一對多 （有shuffle操作）
窄依賴：一對一 或者多對一

2、 Shuffle操作問題解決

2.1 資料傾斜原理

在進行shuffle的時候，必須将各個節點上相同的key拉取到某個節點上的一個task
來進行處理，此時如果某個key對應的資料量特别大的話，就會發生資料傾斜
（在實際生産中去null值是必須的）

2.2 資料傾斜問題發現與解決

通過Spark Web UI來檢視目前運作的stage各個task配置設定的資料量，進而進一步确定
是不是task配置設定的資料不均勻導緻了資料傾斜。
知道資料傾斜發生在哪一個stage之後，接着我們就需要根據stage劃分原理，推算出
來發生傾斜的那個stage對應代碼中的哪一部分，這部分代碼中肯定會有一個shuffle
類算子。
通過countByKey檢視各個key的分布。

2.3 資料傾斜解決方案

2.3.1 過濾少數導緻傾斜的key
2.3.2 提高shuffle操作的并行度
2.3.3 局部聚合和全局聚合

案例<一>：采樣傾斜key并分拆join操作（join的兩表都很大，但僅一個RDD的幾個key的資料量過大）

方案實作思路：

對包含少數幾個資料量過大的key的那個RDD，通過sample算子采樣出一份樣本來，然後統計一下每個key的數量，計算出來資料量最大的是哪幾個key。

然後将這幾個key對應的資料從原來的RDD中拆分出來，形成一個單獨的RDD，并給每個key都打上n以内的随機數作為字首，而不會導緻傾斜的大部分key形成另外一個RDD。

接着将需要join的另一個RDD，也過濾出來那幾個傾斜key對應的資料并形成一個單獨的RDD，将每條資料膨脹成n條資料，這n條資料都按順序附加一個0~n的字首，不會導緻傾斜的大部分key也形成另外一個RDD。

再将附加了随機字首的獨立RDD與另一個膨脹n倍的獨立RDD進行join，此時就可以将原先相同的key打散成n份，分散到多個task中去進行join了。

而另外兩個普通的RDD就照常join即可。

最後将兩次join的結果使用union算子合并起來即可，就是最終的join結果。

shuffle原理及優化政策

案例<二>使用随機字首和擴容RDD進行join(RDD中有大量的key導緻資料傾斜)

方案實作思路：

　　将含有較多傾斜key的RDD擴大多倍，與相對分布均勻的RDD配一個随機數。　

shuffle原理及優化政策

4 spark shuffle參數調優

spark.shuffle.file.buffer

預設值：32k
參數說明：該參數用于設定shuffle write task的
BufferedOutputStream的buffer緩沖大小。将資料寫到磁盤檔案之前，會先寫入
buffer緩沖中，待緩沖寫滿之後，才會溢寫到磁盤。

調優建議：

如果作業可用的記憶體資源較為充足的話，可以适當增加這個參數的大小（比如64k），
進而減少shuffle write過程中溢寫磁盤檔案的次數，也就可以減少磁盤IO次數，
進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

預設值：48m
參數說明：該參數用于設定shuffle read task的buffer緩沖大小，而這個buffer
緩沖決定了每次能夠拉取多少資料。

調優建議：

如果作業可用的記憶體資源較為充足的話，可以适當增加這個參數的大小（比如96m），
進而減少拉取資料的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中
發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

預設值：3
參數說明：shuffle read task從shuffle write task所在節點拉取屬于自己的數
據時，如果因為網絡異常導緻拉取失敗，是會自動進行重試的。該參數就代表了可以
重試的最大次數。如果在指定次數之内拉取還是沒有成功，就可能會導緻作業執行
失敗。

調優建議：

對于那些包含了特别耗時的shuffle操作的作業，建議增加重試最大次數（比如60次）
，以避免由于JVM的full gc或者網絡不穩定等因素導緻的資料拉取失敗。在實踐中
發現，對于針對超大資料量（數十億~上百億）的shuffle過程，調節該參數可以大幅度
提升穩定性。

spark.shuffle.io.retryWait

預設值：5s
參數說明：具體解釋同上，該參數代表了每次重試拉取資料的等待間隔，預設是5s。

調優建議：

建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

預設值：0.2

參數說明：

該參數代表了Executor記憶體中，配置設定給shuffle read task進行聚合操作的記憶體比例，
預設是20%。

調優建議：

在資源參數調優中講解過這個參數。如果記憶體充足，而且很少使用持久化操作，建議
調高這個比例，給shuffle read的聚合操作更多記憶體，以避免由于記憶體不足導緻聚合
過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以将性能提升10%左右。

spark.shuffle.manager

預設值：sort

參數說明：

該參數用于設定ShuffleManager的類型。Spark 1.5以後，有三個可選項：hash、
sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項，但是
Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與
sort類似，但是使用了tungsten計劃中的堆外記憶體管理機制，記憶體使用效率更高。

調優建議：

由于SortShuffleManager預設會對資料進行排序，是以如果你的業務邏輯中需要該
排序機制的話，則使用預設的SortShuffleManager就可以；而如果你的業務邏輯不
需要對資料進行排序，那麼建議參考後面的幾個參數調優，通過bypass機制或優化的
HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這裡要注意
的是，tungsten-sort要慎用，因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

預設值：200

參數說明：

當ShuffleManager為SortShuffleManager時，如果shuffle read task的數量小于
這個門檻值（預設是200），則shuffle write過程中不會進行排序操作，而是直接按
照未經優化的HashShuffleManager的方式去寫資料，但是最後會将每個task産生的
所有臨時磁盤檔案都合并成一個檔案，并會建立單獨的索引檔案。

調優建議：

當你使用SortShuffleManager時，如果的确不需要排序操作，那麼建議将這個參數
調大一些，大于shuffle read task的數量。那麼此時就會自動啟用bypass機制，
map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會産
生大量的磁盤檔案，是以shuffle write性能有待提高。

spark.shuffle.consolidateFiles

預設值：false

參數說明：

如果使用HashShuffleManager，該參數有效。如果設定為true，那麼就會開啟
consolidate機制，會大幅度合并shuffle write的輸出檔案，對于shuffle read
task數量特别多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。

調優建議：

如果的确不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可
以嘗試将spark.shffle.manager參數手動指定為hash，使用HashShuffleManager，
同時開啟consolidate機制。在實踐中嘗試過，發現其性能比開啟了bypass機制的
SortShuffleManager要高出10%~30%。

shuffle原理及優化政策

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

shuffle原理 及優化政策

繼續閱讀

shuffle原理及優化政策