天天看点

大数据||MapReduce的shuffle

mapreduce的数据处理过程中,shuffle出于map和Reduce之间。

Shuffle:洗牌或弄乱。

Collections.shuffle(List):随机地打乱参数list里的元素顺序。

MapReduce里Shuffle:描述着数据从map task输出到reduce task输入的这段过程。

mapreduce处理过程 input --> map --> shuffle --> reduce -->output

分区Partitioner

排序Sort

合并Combiner(可选)

压缩Compress(可选)

分组Group

Reduce Task Number

Map Task 输出压缩

Shuffle Phase 参数

image.png

继续阅读