天天看點

大資料||MapReduce的shuffle

mapreduce的資料處理過程中,shuffle出于map和Reduce之間。

Shuffle:洗牌或弄亂。

Collections.shuffle(List):随機地打亂參數list裡的元素順序。

MapReduce裡Shuffle:描述着資料從map task輸出到reduce task輸入的這段過程。

mapreduce處理過程 input --> map --> shuffle --> reduce -->output

分區Partitioner

排序Sort

合并Combiner(可選)

壓縮Compress(可選)

分組Group

Reduce Task Number

Map Task 輸出壓縮

Shuffle Phase 參數

image.png

繼續閱讀