转帖-hadoop的JobId TaskId生成规则

2021-11-07 13:11:47

在hadoop的任务job中，jobid是标志一个任务的唯一标志，可以用于定位到该job，查询该job相关信息，kill掉该job 。

jobid是如何生成的呢？

在一般的服务集群上我们通过jobtracker来管理job，该id既是通过jobtracke的getnewjobid()方法得到,具体代码如下：

代码二：

trackeridentifier 和 nextjobid均是jobtracker的内部变量。

trackeridentifier 是固定的jobtracker启动（实例化）时就确定的，代码如下：

trackeridentifier是启动时的时间戳。 nextjobid是启动时赋值1，没执行一次该方法则nextjobid值+1 。所以job即是：job_jobtracker启动时间戳_该jobtracker生成的顺序的一个id ，该id也叫做iobtracker的id。 jobid是系统分配给作业的唯一标识符，它的tostring结果是job_<jobtrackerid>_<jobnumber>。例子：job_200707121733_0003表明这是jobtracker200707121733 （利用jobtracker的开始时间作为id）的第3号作业。

一个任务有可能有多个执行（错误恢复/消除stragglers等），所以必须区分任务的多个执行，这是通过类taskattemptid来完成，它在任务号的基础上添加了尝试号。一个任务尝试号的例子是attempt_200707121733_0003_m_000005_0，它是任务task_200707121733_0003_m_000005的第0号尝试。

（原帖：http://blog.csdn.net/codestinity/article/details/6939086）

转帖-hadoop的JobId TaskId生成规则

继续阅读

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理