天天看点

MapReduce 原理 shuffle过程 处理数据倾斜

1.简介

MapReduce是一个分布式编程的计算框架,是一个将分布式计算抽象为Map(映射)和Reduce(归约)两个阶段的编程模型  

2.MapReduce执行流程

MapReduce的执行过程主要包含四个阶段:Split阶段、Map阶段、Shuffle阶段和Reduce阶段

MapReduce 原理 shuffle过程 处理数据倾斜

(1)split阶段   将输入的大文件进行split,每个输入分片(input split)针对一个map任务。   输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。      (2)map阶段   map阶段就是需要我们自己编写的map函数。对输入分片中的每个键值对去调用map()函数进行运算,然后输出一个结果键值对   (3)shuffle阶段   shuffle阶段主要负责将map端生成的数据传递给reduce端,因此shuffle分为在map端的过程和在reduce端的执行过程。 map端:

MapReduce 原理 shuffle过程 处理数据倾斜
  • 对map的输出进行partition,其中一个partition对应一个reduce,默认通过键值对的key取hash值%reduce,也可以进行自定义分区
  • 把map的结果数据写入到Memory Buffer(内存缓冲区),当缓冲区满80%之后,启动溢写(spill),将数据写入到磁盘中,同时根据key排序(sort),如果有combiner步骤,则会对相同的key做归并处理,最终多个溢写文件合并(merge)为一个文件。

reduce端:

MapReduce 原理 shuffle过程 处理数据倾斜
  • Reduce端启动一些copy线程,从各个map端拉取数据放到Memory Buffer(内存缓冲区),同理将数据进行合并并存到磁盘,最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。

  (4)reduce阶段 reduce对shuffle阶段传来的数据进行最后的整理合并  

3.MapReduce使用Partitioner接口处理数据倾斜

  MapReduce提供Partitioner接口,它的作用就是根据key取hash值对reduce的数量取模,来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力,如果用户自己对Partitioner有需求,可以订制并设置到job上。 用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法。

源代码:
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
修改后:
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (((key).hashCode()+value.hashCode()) & Integer.MAX_VALUE) % numReduceTasks;
  }
           

  优化常用手段:

  • 减少job数(合并MapReduce,用Multi-group by)
  • 设置合理的task数,能有效提升性能
  • 数据量大,慎用count(distinct)
  • 对小文件进行合并

参考:https://www.jianshu.com/p/93410ea20ec7

继续阅读