Hadoop之MapReduce命令

概述

全部的Hadoop命令都通过bin/mapred脚本调用。

在没有不论什么參数的情况下。执行mapred脚本将打印该命令描写叙述。

使用：mapred [--config confdir] COMMAND

[hadoop@hadoopcluster78 bin]$ mapred
Usage: mapred [--config confdir] COMMAND
       where COMMAND is one of:
  pipes                run a Pipes job
  job                  manipulate MapReduce jobs
  queue                get information regarding JobQueues
  classpath            prints the class path needed for running
                       mapreduce subcommands
  historyserver        run job history servers as a standalone daemon
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  hsadmin              job history server admin interface

Most commands print help when invoked w/o parameters.

用户命令

对于Hadoop集群用户非常实用的命令：

classpath

打印须要得到Hadoop的jar和所须要的lib包路径，hdfs，yarn脚本都有这个命令。

使用: mapred classpath

distcp

递归的复制文件或者文件夹，查看该篇中的演示样例：Hadoop之命令指南。

job

通过job命令和MapReduce任务交互。

參数选项	描写叙述
-submit job-file	提交一个job.
-status job-id	打印map任务和reduce任务完毕百分比和全部JOB的计数器。
-counter job-id group-name counter-name	打印计数器的值。
-kill job-id	依据job-id杀掉指定job.
-events job-id from-event-# #-of-events	打印给力訪问内jobtracker接受到的事件细节。（用法见演示样例）
-history [all]jobOutputDir	打印JOB的细节，失败和杀掉原因的细节。很多其它的关于一个作业的细节比方:成功的任务和每一个任务尝试等信息能够通过指定[all]选项查看。
-list [all]	打印当前正在执行的JOB，假设加了all。则打印全部的JOB。
-kill-task task-id	Kill任务，杀掉的任务不记录失败重试的数量。
-fail-task task-id	Fail任务。杀掉的任务不记录失败重试的数量。默认任务的尝试次数是4次超过四次则不尝试。那么假设使用fail-task命令fail同一个任务四次，这个任务将不会继续尝试，并且会导致整个JOB失败。
-set-priority job-id priority	改变JOB的优先级。同意的优先级有：VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW

演示样例：

[hadoop@hadoopcluster78 bin]$ mapred job -events job_1437364567082_0109 0 100
15/08/13 15:10:53 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Task completion events for job_1437364567082_0109
Number of events (from 0) are: 1
SUCCEEDED attempt_1437364567082_0109_m_000016_0 http://hadoopcluster83:13562/tasklog?plaintext=true&attemptid=attempt_1437364567082_0109_m_000016_0

[hadoop@hadoopcluster78 bin]$ mapred job -kill-task attempt_1437364567082_0111_m_000000_4
15/08/13 15:51:25 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Killed task attempt_1437364567082_0111_m_000000_4

pipes

执行pipes JOB。

关于pipe。查看：Hadoop pipes编程

Hadoop pipes同意C++程序猿编写mapreduce程序。

它同意用户混用C++和Java的RecordReader。 Mapper。 Partitioner。Rducer和RecordWriter等五个组件。

Usage: mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]


-conf path	Job的配置文件路径。
-jobconf key=value, key=value, …	添加/重载 JOB的配置。
-input path	输入路径
-output path	输出路径
-jar jar file	JAR文件名称
-inputformat class	InputFormat类
-map class	Java Map 类
-partitioner class	Java Partitioner
-reduce class	Java Reduce 类
-writer class	Java RecordWriter
-program executable	可运行的URI
-reduces num	reduce的数量

queue

该命令用于交互和查看Job Queue信息。

使用: mapred queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]

-list 获取在系统配置的Job Queues列表。已经Job Queues的调度信息。

-info job-queue-name [-showJobs]


-list	获取在系统配置的Job Queues列表。已经Job Queues的调度信息。
-info job-queue-name [-showJobs]	显示一个指定Job Queue的信息和它的调度信息。假设使用 `-showJobs选项，则显示当前正在执行的JOB列表。`
-showacls	显示队列名和同意当前用户对队列的相关操作。这个命令打印的命令是当前用户能够訪问的。

显示一个指定Job Queue的信息和它的调度信息。

假设使用

-showJobs选项，则显示当前正在执行的JOB列表。

-showacls

显示队列名和同意当前用户对队列的相关操作。

这个命令打印的命令是当前用户能够訪问的。

[hadoop@hadoopcluster78 bin]$ mapred queue -list
15/08/13 14:25:30 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 47.5

[hadoop@hadoopcluster78 bin]$ mapred queue -info default
15/08/13 14:28:45 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5

[hadoop@hadoopcluster78 bin]$ mapred queue -info default -showJobs
15/08/13 14:29:08 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5 
Total jobs:1
                  JobId         State         StartTime        UserName           Queue      Priority     UsedContainers     RsvdContainers     UsedMem     RsvdMem     NeededMem       AM info
 job_1437364567082_0107       RUNNING     1439447102615            root         default        NORMAL                 28                  0      29696M          0M        29696M    http://hadoopcluster79:8088/proxy/application_1437364567082_0107/

[hadoop@hadoopcluster78 bin]$ mapred queue -showacls
15/08/13 14:31:44 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Queue acls for user :  hadoop

Queue  Operations
=====================
root  ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
default  ADMINISTER_QUEUE,SUBMIT_APPLICATIONS

管理员命令

下面是对hadoop集群超级管理员非常实用的命令。

historyserver

启动JobHistoryServer服务。

使用: mapred historyserver

hsadmin

參数配置
-refreshUserToGroupsMappings	刷新用户-组的相应关系。
-refreshSuperUserGroupsConfiguration	刷新超级用户代理组映射
-refreshAdminAcls	刷新JobHistoryServer管理的ACL
-refreshLoadedJobCache	刷新JobHistoryServer载入JOB的缓存
-refreshJobRetentionSettings	刷新Job histroy旗舰，job cleaner被设置。
-refreshLogRetentionSettings	刷新日志保留周期和日志保留的检查间隔
-getGroups [username]	获取这个username属于哪个组
-help [cmd]	帮助

[hadoop@hadoopcluster78 bin]$ mapred hsadmin -getGroups hadoop
hadoop : clustergroup

Hadoop之MapReduce命令

概述

用户命令

archive

classpath

distcp

job

pipes

queue

管理员命令

historyserver

hsadmin

继续阅读

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method