大数据||MapReduce之wordcount处理过程

2018-02-11 23:50:00

将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，下图所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows/Linux环境不同）。

image.png

将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，下图所示。

得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，得到Mapper的最终输出结果。

Reducer先对从Mapper接收的数据进行排序、分组，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，

hive的底层就是MapReduce。学好它就可以调试甚至修改hive。

分布式计算大数据 Linux Windows sql hive linux大数据编辑器 mapreduce大数据处理阿里云大数据flume流计算业务 linux大数据实战 linux mongo数据

上一篇: JAVA基础之运算符

下一篇: 编写WordCount程序之一固定格式讲解

继续阅读