天天看點

從零自學Hadoop(11):Hadoop指令上

上一篇,我們從發展曆程,架構,MapReduce等方面對比了Hadoop1.x與Hadoop2.x,特别是這這幾年,2.x的發展已經可以适合很多的應用場景了。前面我們通過Eclipse插件來進行檔案的上傳,删除等,下面我們熟悉下Hadoop指令,進而更能直接,強力的對Hadoop進行操作。

  下面,我們就開始對Hadoop指令進行粗略的解析。本文有些地方是自己翻譯的,翻譯的不好望見諒。本章節内容較多,還是分為上下兩部分。

閱讀目錄

  • 概述
  • Hadoop Common Commands
  • User Commands
  • Administration Commands
  • File System Shell
  • 引用
  • 系列索引

本文版權歸mephisto和部落格園共有,歡迎轉載,但須保留此段聲明,并給出原文連結,謝謝合作。

文章是哥(mephisto)寫的,SourceLink

  上一篇,我們從發展曆程,架構,MapReduce等方面對比了Hadoop1.x與Hadoop2.x,特别是這這幾年,2.x的發展已經可以适合很多的應用場景了。前面我們通過Eclipse插件來進行檔案的上傳,删除等,下面我們熟悉下Hadoop指令,進而更能直接,強力的對Hadoop進行操作。

  下面,我們就開始對Hadoop指令進行粗略的解析。本文有些地方是自己翻譯的,翻譯的不好望見諒。本章節内容較多,還是分為上中下三部分。

一:概述

所有的hadoop指令均由bin/hadoop腳本引發。不指定參數運作hadoop腳本會列印所有指令的描述。

用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一個選項解析架構用于解析一般的選項和運作類。

指令選項 描述
--config confdir 覆寫預設配置目錄。預設是${HADOOP_HOME}/conf。
--loglevel loglevel 覆寫日志級别. 有效的日志級别是 FATAL, ERROR, WARN, INFO, DEBUG, and TRACE. 預設是 INFO.
GENERIC_OPTIONS 多個指令都支援的通用選項。
COMMAND_OPTIONS 各種各樣的指令和它們的選項會在下面提到。 HDFS and YARN 在其他文檔有講解。

二:正常選項

  很多子指令 通過配置選項來改變他們的行為。 
GENERIC_OPTION
-archives <comma separated list of archives> 指定要在計算機一個逗号分隔的檔案。僅适用于job。
-conf <configuration file> 指定應用程式的配置檔案。
-D <property>=<value> 為指定property指定值value。
-files <comma separated list of files> 指定要拷貝到map reduce叢集的檔案的逗号分隔的清單。 隻适用于job。
-jt <local> or <resourcemanager:port> 指定job tracker。隻适用于job 。
-libjars <comma seperated list of jars> 指定要包含到classpath中的jar檔案的逗号分隔的清單。 隻适用于job.

一:介紹

 所有這些指令都是從Hadoop的shell指令執行。他們被分成使用者指令和管理指令。

  用于Hadoop叢集使用者指令。

二:archive

  建立一個hadoop檔案檔案。參考 Hadoop Archives Guide.

  用法:hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>

    -archiveName 你想創造檔案的名字.

    -p 制定父路徑,制定了後,後面的src dest都是相對路徑

    src 檔案系統的路徑名,和通常含正則表達的一樣。

    dest 儲存檔案檔案的目标目錄。

三:checknative

  這個指令檢查Hadoop本地代碼的可用性。 See #NativeLibraries.html for more information. 預設情況下,此指令隻檢查libhadoop的可用性。

  用法: hadoop checknative [-a] [-h]

COMMAND_OPTION Description
-a Check all libraries are available.
-h print help

四:classpath

  列印Hadoop jar和所需的libs的class路徑。

  用法: hadoop classpath [--glob |--jar <path> |-h |--help]

--glob expand wildcards
--jar path write classpath as manifest in jar named path
-h, --help

五:credential

  用于管理 credentials, passwords and secrets

  用法: hadoop credential <subcommand> [options]

create alias [-provider provider-path] Prompts the user for a credential to be stored as the given alias. The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a -provider is indicated.
delete alias [-provider provider-path] [-f] Deletes the credential with the provided alias. The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a -provider is indicated. The command asks for confirmation unless -f is specified
list [-provider provider-path] Lists all of the credential aliases The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a -provider is indicated.

六:distcp

  遞歸複制檔案或目錄. More information can be found at Hadoop DistCp Guide.

七:fs

  這個指令在 File System Shell Guide描述. 在HDFS使用中,hdfs,dfs是相同的。

八:jar

  執行一個jar檔案。使用yarn jar來運作Yarn app來代替。

  使用: hadoop jar <jar> [mainClass] args...

九:key

  通過KeyProvider來管理keys。

十:trace

  檢視和修改Hadoop tracing 設定。 See the Tracing Guide.

十一:version

  列印版本

  用法:hadoop version

十二:CLASSNAME

  腳本可用于調調用任何類

  用法:hadoop CLASSNAME

  用于管理Hadoop cluster

二:daemonlog

  擷取/設定在背景Log的級别

  用法:hadoop daemonlog -getlevel <host:httpport> <classname>

       hadoop daemonlog -setlevel <host:httpport> <classname> <level>

  例如: $ bin/hadoop daemonlog -setlevel 127.0.0.1:50070 org.apache.hadoop.hdfs.server.namenode.NameNode DEBUG

  調用檔案系統(FS)Shell指令應使用 bin/hadoop fs <args>的形式。 所有的的FS shell指令使用URI路徑作為參數。URI格式是scheme://authority/path。對HDFS檔案系統,scheme是hdfs,對本地檔案系統,scheme是file。其中scheme和authority參數都是可選的,如果未加指定,就會使用配置中指定的預設scheme。一個HDFS檔案或目錄比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child,或者更簡單的/parent/child(假設你配置檔案中的預設值是namenode:namenodeport)。大多數FS Shell指令的行為和對應的Unix Shell指令類似,不同之處會在下面介紹各指令使用詳情時指出。出錯資訊會輸出到stderr,其他資訊輸出到stdout。

二:appendToFile

  附加單個或多個src從本地檔案系統到目标檔案系統,另外從stdin讀取輸入并追加到目标檔案系統。

  用法: hadoop fs -appendToFile <localsrc> ... <dst>

三:cat

  将路徑指定檔案的内容輸出到stdout。

  用法: hadoop fs -cat URI [URI ...]

四:checksum

  傳回檔案的校驗資訊。

  用法: hadoop fs -checksum URI

五:chgrp

  改變檔案所屬的組。使用-R将使改變在目錄結構下遞歸進行。指令的使用者必須是檔案的所有者或者超級使用者

  用法: hadoop fs -chgrp [-R] GROUP URI [URI ...]

六:chmod

  改變檔案的權限。使用-R将使改變在目錄結構下遞歸進行。指令的使用者必須是檔案的所有者或者超級使用者

  用法: hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

七:chown

  改變檔案的擁有者。使用-R将使改變在目錄結構下遞歸進行。指令的使用者必須是超級使用者

  用法:hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

八:copyFromLocal

  除了限定源路徑是一個本地檔案外,和put指令相似。

  用法:hadoop fs -copyFromLocal <localsrc> URI

九:copyToLocal

  除了限定目标路徑是一個本地檔案外,和get指令類似。

  用法: hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

十:count

  計算在比對指定檔案模式的路徑下的目錄、檔案和位元組數

  用法: hadoop fs -count [-q] [-h] [-v] <paths>

十一:cp

  将檔案從源路徑複制到目标路徑。這個指令允許有多個源路徑,此時目标路徑必須是一個目錄。     

  用法: hadoop fs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest> 

十二:createSnapshot

  See HDFS Snapshots Guide.

十三:deleteSnapshot

十四:df

  顯示free空間。

  用法: hadoop fs -df [-h] URI [URI ...]

十五:du

  顯示目錄中所有檔案的大小,或者當隻指定一個檔案時,顯示此檔案的大小

  用法: hadoop fs -dus <args>

十六:expunge

  清空資源回收筒。請參考HDFS Architecture Guide以擷取更多關于資源回收筒特性的資訊。

  用法: hadoop fs -expunge

十七:find

  查找與指定表達式比對的所有檔案,并将標明的操作應用于它們。如果沒有指定路徑,則預設為目前工作目錄。如果沒有指定表達式,則預設為列印。

  用法: hadoop fs -find <path> ... <expression> ...

十八:get

  複制檔案到本地檔案系統。可用-ignorecrc選項複制CRC校驗失敗的檔案。使用-crc選項複制檔案以及CRC資訊。

  用法: hadoop fs -getfacl [-R] <path>

十九:getfacl

  顯示通路控制清單(ACL)的檔案和目錄。如果一個目錄中有一個預設的ACL,然後getfacl也顯示預設的ACL。

二十:getfattr

  顯示檔案或目錄的擴充屬性名和值(如果有的話)

  用法: hadoop fs -getfattr [-R] -n name | -d [-e en] <path>

二十一:getmerge

  接受一個源目錄和一個目标檔案作為輸入,并且将源目錄中所有的檔案連接配接成本地目标檔案。addnl是可選的,用于指定在每個檔案結尾添加一個換行符。

  用法: hadoop fs -getmerge <src> <localdst> [addnl]

二十二:help

  傳回使用輸出

  用法: hadoop fs -help

二十三:ls

  如果是檔案,則按照如下格式傳回檔案資訊:

  檔案名 <副本數> 檔案大小 修改日期 修改時間 權限 使用者ID 組ID

  如果是目錄,則傳回它直接子檔案的一個清單,就像在Unix中一樣。目錄傳回清單的資訊如下:

  目錄名 <dir> 修改日期 修改時間 權限 使用者ID 組ID

  用法: hadoop fs -ls [-d] [-h] [-R] [-t] [-S] [-r] [-u] <args>

二十四:lsr

  ls指令的遞歸版本。類似于Unix中的ls -R。

  用法: hadoop fs -lsr <args>

二十五:mkdir

  接受路徑指定的uri作為參數,建立這些目錄。其行為類似于Unix的mkdir -p,它會建立路徑中的各級父目錄。

  用法: hadoop fs -mkdir [-p] <paths>

二十六:moveFromLocal

  類似put的用法,在copy後除了source localsrc都删除。

  用法: hadoop fs -moveFromLocal <localsrc> <dst>

二十七:moveToLocal

  輸出一個”not implemented“資訊。

  用法: hadoop fs -moveToLocal [-crc] <src> <dst>

二十八:mv

  将檔案從源路徑移動到目标路徑。這個指令允許有多個源路徑,此時目标路徑必須是一個目錄。不允許在不同的檔案系統間移動檔案。     

  用法: hadoop fs -mv URI [URI ...] <dest>

二十九:put

  從本地檔案系統中複制單個或多個源路徑到目标檔案系統。也支援從标準輸入中讀取輸入寫入目标檔案系統。

  用法: hadoop fs -put <localsrc> ... <dst>

三十:renameSnapshot

三十一:rm

  删除指定的檔案。隻删除非空目錄和檔案。請參考rmr指令了解遞歸删除。

  用法: hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]

三十二:rmdir

  删除一個檔案夾

  用法: hadoop fs -rmdir [--ignore-fail-on-non-empty] URI [URI ...]

三十三:rmr

  delete的遞歸版本。

  用法: hadoop fs -rmr [-skipTrash] URI [URI ...]

三十四:setfacl

  設定通路控制清單(ACL)的檔案和目錄

  用法: hadoop fs -setfacl [-R] [-b |-k -m |-x <acl_spec> <path>] |[--set <acl_spec> <path>]

三十五:setfattr

  設定一個檔案或目錄的擴充屬性名和值

  用法: hadoop fs -setfattr -n name [-v value] | -x name <path>

三十六:setrep

  改變一個檔案的副本系數。-R選項用于遞歸改變目錄下所有檔案的副本系數。

  用法: hadoop fs -setrep [-R] [-w] <numReplicas> <path>

三十七: stat

  傳回指定路徑的統計資訊。

  用法: hadoop fs -stat [format] <path> ...

三十八:tail

  将檔案尾部1K位元組的内容輸出到stdout。支援-f選項,行為和Unix中一緻。

  用法: hadoop fs -tail [-f] URI

三十九:test

  選項:

    -e 檢查檔案是否存在。如果存在則傳回0。

    -z 檢查檔案是否是0位元組。如果是則傳回0。

    -d 如果路徑是個目錄,則傳回1,否則傳回0。

  用法: hadoop fs -test -[defsz] URI

四十:text

  将源檔案輸出為文本格式。允許的格式是zip和TextRecordInputStream。

  用法: hadoop fs -text <src>

四十一:touchz

  建立一個0位元組的空檔案。

  用法: hadoop fs -touchz URI [URI ...]

四十二:truncate

  截斷指定檔案模式指定的長度比對的所有檔案。

  用法: hadoop fs -truncate [-w] <length> <paths>

四十三:usage

  傳回單個指令的幫助。

  用法: hadoop fs -usage command  

--------------------------------------------------------------------

  到此,本章節的内容講述完畢。

Apache hadoop commands:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/CommandsManual.html

Apache File System Shell:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Apache 1.04 中文:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html

  【源】從零自學Hadoop系列索引
從零自學Hadoop(11):Hadoop指令上

博文作者:mephisto

博文出處:http://www.cnblogs.com/mephisto

本文版權歸作者和部落格園共有,歡迎轉載,但須保留此段聲明,并給出原文連結,謝謝合作!

如果閱讀了本文章,覺得有幫助,您可以選擇捐助我:

從零自學Hadoop(11):Hadoop指令上

繼續閱讀