MapReduce 原理 shuffle过程处理数据倾斜

2023-04-13 05:32:44

1.简介

MapReduce是一个分布式编程的计算框架，是一个将分布式计算抽象为Map（映射）和Reduce（归约）两个阶段的编程模型

2.MapReduce执行流程

MapReduce的执行过程主要包含四个阶段：Split阶段、Map阶段、Shuffle阶段和Reduce阶段

MapReduce 原理 shuffle过程处理数据倾斜

（1）split阶段将输入的大文件进行split，每个输入分片(input split)针对一个map任务。输入分片(input split)存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。（2）map阶段 map阶段就是需要我们自己编写的map函数。对输入分片中的每个键值对去调用map()函数进行运算，然后输出一个结果键值对（3）shuffle阶段 shuffle阶段主要负责将map端生成的数据传递给reduce端，因此shuffle分为在map端的过程和在reduce端的执行过程。 map端：

MapReduce 原理 shuffle过程处理数据倾斜

对map的输出进行partition，其中一个partition对应一个reduce，默认通过键值对的key取hash值%reduce，也可以进行自定义分区
把map的结果数据写入到Memory Buffer(内存缓冲区)，当缓冲区满80%之后，启动溢写（spill），将数据写入到磁盘中，同时根据key排序(sort)，如果有combiner步骤，则会对相同的key做归并处理，最终多个溢写文件合并（merge）为一个文件。

reduce端：

MapReduce 原理 shuffle过程处理数据倾斜

Reduce端启动一些copy线程，从各个map端拉取数据放到Memory Buffer(内存缓冲区)，同理将数据进行合并并存到磁盘，最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。

（4）reduce阶段 reduce对shuffle阶段传来的数据进行最后的整理合并

3.MapReduce使用Partitioner接口处理数据倾斜

MapReduce提供Partitioner接口，它的作用就是根据key取hash值对reduce的数量取模，来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力，如果用户自己对Partitioner有需求，可以订制并设置到job上。用hadoop程序进行数据关联时，常碰到数据倾斜的情况，这里提供一种解决方法。

源代码：
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
修改后：
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return ((（key).hashCode()+value.hashCode()） & Integer.MAX_VALUE) % numReduceTasks;
  }

优化常用手段：

减少job数（合并MapReduce，用Multi-group by）
设置合理的task数，能有效提升性能
数据量大，慎用count（distinct）
对小文件进行合并

参考：https://www.jianshu.com/p/93410ea20ec7

MapReduce 原理 shuffle过程处理数据倾斜

1.简介

2.MapReduce执行流程

3.MapReduce使用Partitioner接口处理数据倾斜

继续阅读

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

专家访谈：搜索开源力量：Lucene技术前景

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

MapReduce 原理 shuffle过程 处理数据倾斜

1.简介

2.MapReduce执行流程

3.MapReduce使用Partitioner接口处理数据倾斜

继续阅读

MapReduce 原理 shuffle过程处理数据倾斜