【Spark】Spark的Shuffle機制

2021-11-09 12:23:32

在mapreduce架構中，shuffle是連接配接map和reduce之間的橋梁，map的輸出要用到reduce中必須經過shuffle這個環節，shuffle的性能高低直接影響了整個程式的性能和吞吐量。

shuffle是mapreduce架構中的一個特定的phase，介于map phase和reduce phase之間，當map的輸出結果要被reduce使用時。輸出結果須要按key哈希。而且分發到每個reducer上去。這個過程就是shuffle。因為shuffle涉及到了磁盤的讀寫和網絡的傳輸，是以shuffle性能的高低直接影響到了整個程式的執行效率。

下圖描寫叙述了mapreduce算法的整個流程，當中shuffle phase是介于map phase和reduce phase之間：

在hadoop, 在mapper端每次當memory buffer中的資料快滿的時候, 先将memory中的資料, 按partition進行劃分, 然後各自存成小檔案, 這樣當buffer不斷的spill的時候, 就會産生大量的小檔案。

是以hadoop後面直到reduce之前做的全部的事情事實上就是不斷的merge, 基于檔案的多路并歸排序,在map端的将同樣partition的merge到一起, 在reduce端, 把從mapper端copy來的資料檔案進行merge, 以用于終于的reduce

多路歸并排序, 達到兩個目的。

merge, 把同樣key的value都放到一個arraylist裡面；sort, 終于的結果是按key排序的。

這個方法擴充性非常好, 面對大資料也沒有問題, 當然問題在效率, 畢竟須要多次進行基于檔案的多路歸并排序,多輪的和磁盤進行資料讀寫。

spark中的shuffle是把一組無規則的資料盡量轉換成一組具有一定規則的資料。

spark計算模型是在分布式的環境下計算的。這就不可能在單程序空間中容納全部的計算資料來進行計算。這樣資料就依照key進行分區。配置設定成一塊一塊的小分區，打散分布在叢集的各個程序的記憶體空間中，并非全部計算算子都滿足于依照一種方式分區進行計算。

當須要對資料進行排序存儲時。就有了又一次依照一定的規則對資料又一次分區的必要。shuffle就是包裹在各種須要重分區的算子之下的一個對資料進行又一次組合的過程。

在邏輯上還能夠這樣了解：因為又一次分區須要知道分區規則。而分區規則依照資料的key通過映射函數（hash或者range等）進行劃分，由資料确定出key的過程就是map過程，同一時候map過程也能夠做資料處理。比如，在join算法中有一個非常經典的算法叫map side join，就是确定資料該放到哪個分區的邏輯定義階段。shuffle将資料進行收集配置設定到指定reduce分區，reduce階段依據函數對對應的分區做reduce所需的函數處理。

* 首先每個mapper會依據reducer的數量建立出對應的bucket，bucket的數量是m×r，當中m是map的個數，r是reduce的個數。

* 其次mapper産生的結果會依據設定的partition算法填充到每個bucket中去。

這裡的partition算法是能夠自己定義的，當然預設的算法是依據key哈希到不同的bucket中去。

* 當reducer啟動時，它會依據自己task的id和所依賴的mapper的id從遠端或是本地的block manager中取得對應的bucket作為reducer的輸入進行處理。

這裡的bucket是一個抽象概念，在實作中每個bucket能夠對應一個檔案。能夠對應檔案的一部分或是其它等。

【Spark】Spark的Shuffle機制

繼續閱讀

Scala和Java二種方式實戰Spark Streaming開發

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

用mapreduce計算wordCount和手機流量統計程式運作過程WordCount統計手機流量統計

Hadoop之運作wordcount

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

專家訪談：搜尋開源力量：Lucene技術前景

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧