Hadoop小集群上减少MR任务调度延迟

2023-04-17 15:03:33

作者：刘旭晖 Raymond 转载请注明出处

Email：colorant at163.com

BLOG：http://blog.csdn.net/colorant/

最近在Hadoop1.0.4稳定版上搭的1+4节点上运行MR Job,遇到一些Latency的问题,记录Share一下

在 hadoop 1.0.4的版本中,Jjobtracker默认的最小Heartbeat 间隔是3秒,并且 Tasktracker默认只在HeartBeat包中报告任务完成状态和请求新的Task. 这样的设定是防止大集群中Jobtracker来不及处理任务调度.但是在小集群中,这就导致了Task调度的Latency比较高,因此对于数据量小,Maptask多的Job,总体的Overhead就很大

在我的1+4 node的试验集群中,对一个480region的HBase表进行扫描,每台机器24个Map Task.总共需要运行5个批次. 在每个Maptask不做任何事情立刻返回的空操作下,完成这样一个MR Job需要64秒左右。可以认为基本就是MR框架的开销。

为了加快调度，可以在mapred-site.xml中设置如下参数

<name>mapreduce.tasktracker.outofband.heartbeat</name>

</property>

<name>mapreduce.tasktracker.outofband.heartbeat.damper</name>

</property>

基本上就是允许任务完成时，更快的向JobTracker汇报，dampper值越大，加快的系数越大，但是这里似乎有一个Bug，默认不设的话是100000，即使空闲时，Tasktracker的CPU占用率也高达80%以上。

在前述480 regions的例子中，整个Job完成的时间缩短到约48秒。

但是，由于JobTracker的最小Heartbeat是3s，所以最快一个Task还是需要3s完成

在 hadoop 1.1.1 附近的版本，将Jobtracker最小的Heartbeat改为了300毫秒，这样也就改进了小Task的调度延迟。

同样上述 480 regions的例子, 使用hadoop 1.1.1, Job完成的时间缩短到了大概30秒，现在最小任务可以在0.3内秒完成了。

Hadoop小集群上减少MR任务调度延迟

继续阅读

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理