MapReduce 之shuffle过程

我们知道在MapReduce程序在map阶段和reduce阶段之间，会进行shuffle操作。那么我们来详细分析一下shuffle的过程或者原理

在MapTask调用Mapper#map方法之前，会构造一个RecordWriter对象，如果Job没有reduce操作，那么new一个NewDirectOutputCollector

如果包含Reduce操作，就new一个NewOutputCollector操作

然后把这个Writer封装在MapContext中，当map阶段某一个map任务完成，就会调用MapContext#write方法。

Write方法又会调用MapOutputCollector#collect方法：

publicvoidwrite(Kkey, Vvalue)throwsIOException, InterruptedException {

collector.collect(key,value,partitioner.getPartition(key,value,

partitions));

}

具体的实现是由MapOutputBuffer来实现的。

这时候Map阶段Shuffle开始：

一 Map阶段的shuffle分析

1分区

一个Map任务完成之后，会进行分区。

1.1我们使用的是什么类来分区呢？首先会判断我们是否在配置文件配置了mapreduce.job.reduces参数，如果没有设置或者设置为1，那么我们就创建一个分区数为0的Partitioner。如果这个参数> 1,如果我们自己在代码设置Partitioner，那么就构造一个我们自己的Partitioner，如果没有，那么就构造一个默认的HashPartitioner。

1.2怎么分区呢？

Map任务结束后，每一个任务都会构造一个内存缓冲区kvbuffer。这个内存缓冲区是一个环形的数据结构，本质是一个字节数组。在初始化的时候就会构造这个字节数组：

kvbuffer= new byte[maxMemUsage];

bufvoid= kvbuffer.length;

kvmeta= ByteBuffer.wrap(kvbuffer)

.order(ByteOrder.nativeOrder())

.asIntBuffer();

setEquator(0);

bufstart= bufend = bufindex = equator;

kvstart= kvend = kvindex;

这儿有几个概念：

Kvbuffer:默认大小是100M，我们也可以自己调整这个缓冲区大小，参数是：mapreduce.task.io.sort.mb

kvmeta:存放索引的元数据信息

kvstart:开始下标

kvend：在spill开始的时候，它会被赋值为kvindex,spill结束，又被赋值为kvstartz,这时候kvstart=kvend。即只要kvstart!= kvend就表示正在spill，否则表示普通状态

kvindex：下一个可以记录的索引位置

最开始这三个值默认都是一样的

bufvoid:实际使用的缓冲区

bufmark:用于标记记录的结尾

bufIndex:初始值为0，指缓冲区增长到哪儿了

在kvindex和bufIndex之间的那部分就是还未溢写的数据，如果只要这部分数据超过80%,就会启动spill操作

流程：

#首先判断剩余的内存缓冲区是否大于0，而且现在是否处于spill阶段，如果剩余的内存缓冲区>0且不处于spill阶段，那么我们就把结果往内存缓冲区写。

#如果写入缓冲区的数据超过了阀值，默认80%就会启用spill程序

#SpillThread是一个线程类，专门负责溢写数据到磁盘，如果没有溢写发生，就一直处于等到状态，否则进行排序和溢写，调用sort

AndSpill方法

#根据分区数目创建SpillRecord

#然后调用getSpillFileForWrite获取HDFS文件路径，会生成一个带有编号的文件，比如output/spill{spillNumber }.out

lDirAlloc.getLocalPathForWrite(MRJobConfig.OUTPUT+ "/spill" + spillNumber + ".out", size, getConf());

#指定一个排序策略HeapSorter/QuickSorter进行排序，默认是QuickSorter

#构造一个IFile.Writer对象，然后输出流输出到指定文件

writer= new Writer<K, V>(job, partitionOut, keyClass,valClass,

codec,spilledRecordsCounter);

这里的codec支持压缩，有助于性能提升。它会根据指定的压缩策略：

mapreduce.map.output.compress.codec。如果没有指定，默认就是

DefaultCodec。

#如果用户设置了Combiner,在溢写到文件之前，还会进行一次combine操作，它继承了Reducer类，本质就是一个Reducer类。然后调用Combiner#combine操作，而后就会调用Reducer#run方法。

#将元数据信息写入内存索引数据结构：SpillRecord.如果内存中索引大于1MB，则写到文件名类似output/spillN.out.index文件，N就是当前spill的次数

#最后RecordWriter在close的时候会去merge当前map 任务产生的那些临时文件，最后会创建file.out和file.out.index文件用来存储最终的输出和索引

二 Reduce的shuffle操作

在Map 任务结束以后，Reduce就要开始从运行Map任务那些节点上复制内存中或者磁盘上的数据。然后再进行合并排序操作。

2.1copy阶段

首先会组装一个ShuffleConsumerPlugin插件，并对他进行初始化

然后调用其run方法，这个插件开始运行

#构造一个EventFetcher线程对象：它主要就是获取已经完成的Map任务事件，然后遍历事件，然后把主机名和URL放进一个集合

#获取进行复制的Fetcher数目，如果是本地就1个，如果是远程取决于mapreduce.reduce.shuffle.parallelcopies参数，默认是5

#然后每一个Fetcher开始工作，他们从之前保存的Host的map集合里获取主机名和URL，然后进行拷贝

#拷贝完毕关闭线程资源

MapReduce 之shuffle过程

继续阅读

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理