MapReduce的输入处理类

MapReduce输入的处理类

FileInputFormat是所有以文件作为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并

实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。

MapReduce的输入处理类

InputFormat 负责处理MR的输入部分.

有三个作用:

验证作业的输入是否规范.

把输入文件切分成InputSplit.

提供RecordReader 的实现类，把InputSplit读到Mapper中进行处理.

在执行mapreduce之前，原始数据被分割成若干split，每个split作为一个map任务的输入，在map执行过程中split会被

分解成一个个记录（key-value对），map会依次处理每一个记录。

◆ FileInputFormat只划分比HDFS block大的文件，所以FileInputFormat划分的结果是这个文件或者是这个文件中的

一部分.

◆ 如果一个文件的大小比block小，将不会被划分，这也是Hadoop处理大文件的效率要比处理很多小文件的效率高

的原因。

◆ 当Hadoop处理很多小文件（文件大小小于hdfs block大小）的时候，由于FileInputFormat不会对小文件进行划

分，所以每一个小文件都会被当做一个split并分配一个map任务，导致效率底下。

例如：一个1G的文件，会被划分成16个64MB的split，并分配16个map任务处理，而10000个100kb的文件会被

10000个map任务处理。

◆ TextInputformat是默认的处理类，处理普通文本文件。

◆ 文件中每一行作为一个记录，他将每一行在文件中的起始偏移量作为key，每一行的内容作为value。

◆ 默认以\n或回车键作为一行记录。

◆ TextInputFormat继承了FileInputFormat。

MapReduce其他输入类

◆ DBInputFormat

◆ CombineFileInputFormat

相对于大量的小文件来说，hadoop更合适处理少量的大文件。

CombineFileInputFormat可以缓解这个问题，它是针对小文件而设计的。

◆ KeyValueTextInputFormat

当输入数据的每一行是两列，并用tab分离的形式的时候，KeyValueTextInputformat处理这种格式的文件非常适

合。

◆ NLineInputformat NLineInputformat可以控制在每个split中数据的行数。

输入类——NLineInputformat

在启动job之前需设置：

//设置具体输入处理类
job.setInputFormatClass(NLineInputFormat.class);
//设置每个split的行数
NLineInputFormat.setNumLinesPerSplit(job, Integer.parseInt(args[2]));

输入类—KeyValueTextInputFormat

如果行中有分隔符，那么分隔符前面的作为key，后面的作为value；如果行中没有分隔符，那么整行作为key，value

为空

job.setInputFormatClass(KeyValueTextInputFormat.class);

//默认分隔符就是制表符

//conf.setStrings(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, "\t");

需要注意使用KeyValueTextInputFormat时，mapper函数的形参K1 V1的类型都是Text。

◆ SequenceFileInputformat

当输入文件格式是sequencefile的时候，要使用SequenceFileInputformat作为输入。

MapReduce的输入处理类

继续阅读

MongoDB学习（一）安装与基本使用

20200625大数据spark学习笔记

Spark初相见-RDD/算子/执行流程/集群搭建前言

学习笔记-大数据之路-数据模型篇-数据整合及管理体系-模型设计

spark2- submit提交任务报错

维度设计

数据库设计-范式解释