mapreduce的資料處理過程中,shuffle出于map和Reduce之間。
Shuffle:洗牌或弄亂。
Collections.shuffle(List):随機地打亂參數list裡的元素順序。
MapReduce裡Shuffle:描述着資料從map task輸出到reduce task輸入的這段過程。
mapreduce處理過程 input --> map --> shuffle --> reduce -->output
分區Partitioner
排序Sort
合并Combiner(可選)
壓縮Compress(可選)
分組Group
Reduce Task Number
Map Task 輸出壓縮
Shuffle Phase 參數
image.png