天天看点

03_MapReduce框架原理_3.3 切片与 MapTask并行度

Hadoop

3. 切片 与 MapTask并行度

1. MapTask并行度

切片数 = MapTask 任务数(并行度)

0 . 术语

1. 数据块(Block)

2. 数据切片(Split)

1. Block是 HDFS物理上把数据文件分成一块一块

1. 数据切片只是在

逻辑上对输入数据进行分片

并不会在磁盘上将其切分成片存储

2.

Block是 HDFS存储数据单位

数据切片是MapReduce程序 输入数据的单位

一个切片会对应启动一个MapTask任务

3. 什么时候对输入文件 切片

1. 客户端 提交Job时