天天看點

03_MapReduce架構原理_3.3 切片與 MapTask并行度

Hadoop

3. 切片 與 MapTask并行度

1. MapTask并行度

切片數 = MapTask 任務數(并行度)

0 . 術語

1. 資料塊(Block)

2. 資料切片(Split)

1. Block是 HDFS實體上把資料檔案分成一塊一塊

1. 資料切片隻是在

邏輯上對輸入資料進行分片

并不會在磁盤上将其切分成片存儲

2.

Block是 HDFS存儲資料機關

資料切片是MapReduce程式 輸入資料的機關

一個切片會對應啟動一個MapTask任務

3. 什麼時候對輸入檔案 切片

1. 用戶端 送出Job時