一 map任務的數量:
(1)map任務的數量由輸入資料的大小決定:
*把輸入資料分成多少資料塊(HDFS預設塊大小為64MB)就為每一個資料塊産生一個map任務。
*n個大小小于資料塊的檔案,則通常會為每個小檔案産生一個map任務。
(2)控制資料塊大小:
*FileInputFormat的setMaxInputSplitSize方法:設定最大分片(即資料塊)的大小,進而間接控制産生map任務的數量。
*FileInputFormat隻劃分比HDFS block大的檔案。
二 reduce任務的數量:
(1)可通過Job類的setNumReduceTasks方法設定。