Hadoop系列之Hadoop 常用指令(3)

Hadoop 常用指令

所有的 Hadoop 指令均由 bin/hadoop 腳本引發。不指定參數運作hadoop腳本會列印所有指令的描述。

用法：

hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop 有一個選項解析架構用于解析一般的選項和運作類。

指令選項	描述
—config confdir	覆寫預設配置目錄。預設是${HADOOP_HOME}/conf。
GENERIC_OPTIONS	多個指令都支援的通用選項。
COMMAND 指令選項	各種各樣的指令和它們的選項會在下面提到。這些指令被分為使用者指令和管理指令兩組。

正常選項

下面的選項被 dfsadmin, fs, fsck和 job支援。應用程式要實作 Tool 來支援正常選項。

GENERIC_OPTION
-conf	指定應用程式的配置檔案。
-D	為指定property指定值value。
-fs	指定namenode。
-jt	指定job tracker。隻适用于job。
-files <逗号分隔的檔案清單>	指定要拷貝到map reduce叢集的檔案的逗号分隔的清單。隻适用于job。
-libjars <逗号分隔的jar清單>	指定要包含到classpath中的jar檔案的逗号分隔的清單。隻适用于job。
-archives <逗号分隔的archive清單>	指定要被解壓到計算節點上的檔案檔案的逗号分割的清單。隻适用于job。

使用者指令

hadoop 叢集使用者的常用指令。


-archiveName NAME	要建立的檔案的名字。
src	檔案系統的路徑名，和通常含正則表達的一樣。
dest	儲存檔案檔案的目标目錄。

distcp

遞歸地拷貝檔案或目錄。參考 DistCp 指南以擷取等多資訊。

hadoop distcp <srcurl> <desturl>


srcurl	源Url
desturl	目标Url

fs

hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

具體的 GENERIC_OPTIONS 可以參考官方文檔

運作一個正常的檔案系統用戶端。

各種指令選項可以參考HDFS Shell指南。

fsck

運作 HDFS 檔案系統檢查工具。參考 Fsck 了解更多。

hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]


檢查的起始目錄。
-move	移動受損檔案到/lost+found
-delete	删除受損檔案。
-openforwrite	列印出寫打開的檔案。
-files	列印出正被檢查的檔案。
-blocks	列印出塊資訊報告。
-locations	列印出每個塊的位置資訊。
-racks	列印出data-node的網絡拓撲結構。

jar

運作 jar 檔案。使用者可以把他們的 Map Reduce 代碼捆綁到 jar 檔案中，使用這個指令執行。

hadoop jar <jar> [mainClass] args...

streaming 作業是通過這個指令執行的。參考Streaming examples中的例子。

Word count 例子也是通過jar指令運作的。參考Wordcount example。

job

用于和 Map Reduce 作業互動和指令。

hadoop job [GENERIC_OPTIONS] [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task <task-id>] | [-fail-task <task-id>]


-submit	送出作業
-status	列印map和reduce完成百分比和所有計數器。
-counter	列印計數器的值。
-kill	殺死指定作業。
-events <#-of-events>	列印給定範圍内jobtracker接收到的事件細節。
-history [all] -history	列印作業的細節、失敗及被殺死原因的細節。更多的關于一個作業的細節比如成功的任務，做過的任務嘗試等資訊可以通過指定[all]選項檢視。
-list [all]	-list all顯示所有作業。-list隻顯示将要完成的作業。
-kill-task	殺死任務。被殺死的任務不會不利于失敗嘗試。
-fail-task	使任務失敗。被失敗的任務會對失敗嘗試不利。

pipes

運作 pipes 作業。

hadoop pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]


	作業的配置
-jobconf , , …	增加/覆寫作業的配置項
-input	輸入目錄
-output	輸出目錄
-jar	Jar檔案名
-inputformat	InputFormat類
-map	Java Map類
-partitioner	Java Partitioner
-reduce	Java Reduce類
-writer	Java RecordWriter
-program	可執行程式的URI
-reduces	reduce個數

version

列印版本資訊。

hadoop version

CLASSNAME

hadoop 腳本可用于調用任何類。

hadoop CLASSNAME

運作名字為 CLASSNAME 的類。

管理指令

hadoop 叢集管理者常用的指令。

balancer

運作叢集平衡工具。管理者可以簡單的按 Ctrl-C 來停止平衡過程。參考 Rebalancer 了解更多。

hadoop balancer [-threshold <threshold>]


-threshold	磁盤容量的百分比。這會覆寫預設的閥值。

daemonlog

擷取或設定每個守護程序的日志級别。

hadoop daemonlog -getlevel <host:port> <name> hadoop daemonlog -setlevel <host:port> <name> <level>


-getlevel	列印運作在的守護程序的日志級别。這個指令内部會連接配接 http:///logLevel?log=
-setlevel	設定運作在的守護程序的日志級别。這個指令内部會連接配接 http:///logLevel?log=

datanode

運作一個 HDFS 的 datanode。

hadoop datanode [-rollback]


-rollback	将datanode復原到前一個版本。這需要在停止datanode，分發老的hadoop版本之後使用。

dfsadmin

運作一個 HDFS 的 dfsadmin 用戶端。

hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status | details | force] [-metasave filename] [-setQuota <quota> <dirname>...<dirname>] [-clrQuota <dirname>...<dirname>] [-help [cmd]]


-report	報告檔案系統的基本資訊和統計資訊。
-safemode [enter / leave / get / wait]	安全模式維護指令。安全模式是Namenode的一個狀态，這種狀态下，Namenode 1. 不接受對名字空間的更改(隻讀)2. 不複制或删除塊Namenode會在啟動時自動進入安全模式，當配置的塊最小百分比數滿足最小的副本數條件時，會自動離開安全模式。安全模式可以手動進入，但是這樣的話也必須手動關閉安全模式。
-refreshNodes	重新讀取hosts和exclude檔案，更新允許連到Namenode的或那些需要退出或入編的Datanode的集合。
-finalizeUpgrade	終結HDFS的更新操作。Datanode删除前一個版本的工作目錄，之後Namenode也這樣做。這個操作完結整個更新過程。
-upgradeProgress [status / details / force]	請求目前系統的更新狀态，狀态的細節，或者強制更新操作進行。
-metasave filename	儲存Namenode的主要資料結構到hadoop.log.dir屬性指定的目錄下的檔案。對于下面的每一項，中都會一行内容與之對應1. Namenode收到的Datanode的心跳信号2. 等待被複制的塊3. 正在被複制的塊4. 等待被删除的塊
-setQuota …	為每個目錄設定配額。目錄配額是一個長整型整數，強制限定了目錄樹下的名字個數。指令會在這個目錄上工作良好，以下情況會報錯：1. N不是一個正整數，或者2. 使用者不是管理者，或者3. 這個目錄不存在或是檔案，或者4. 目錄會馬上超出新設定的配額。
-clrQuota …	為每一個目錄清除配額設定。指令會在這個目錄上工作良好，以下情況會報錯：1. 這個目錄不存在或是檔案，或者2. 使用者不是管理者。如果目錄原來沒有配額不會報錯。
-help [cmd]	顯示給定指令的幫助資訊，如果沒有給定指令，則顯示所有指令的幫助資訊。

jobtracker

運作 MapReduce job Tracker 節點。

hadoop jobtracker

namenode

hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]


-format	格式化namenode。它啟動namenode，格式化namenode，之後關閉namenode。
-upgrade	分發新版本的hadoop後，namenode應以upgrade選項啟動。
	将namenode復原到前一版本。這個選項要在停止叢集，分發老的hadoop版本後使用。
-finalize	finalize會删除檔案系統的前一狀态。最近的更新會被持久化，rollback選項将再不可用，更新終結操作之後，它會停掉namenode。
-importCheckpoint	從檢查點目錄裝載鏡像并儲存到目前檢查點目錄，檢查點目錄由fs.checkpoint.dir指定。

secondarynamenode


-checkpoint [force]	如果EditLog的大小 >= fs.checkpoint.size，啟動Secondary namenode的檢查點過程。如果使用了-force，将不考慮EditLog的大小。
-geteditsize	列印EditLog大小。

Hadoop系列之Hadoop 常用指令(3)

正常選項

使用者指令

archive

distcp

fs

fsck

jar

job

pipes

version

CLASSNAME

管理指令

balancer

daemonlog

datanode

dfsadmin

jobtracker

namenode

secondarynamenode

tasktracker

繼續閱讀

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark