Hadoop distcp指令

DistCp（分布式拷貝）是用于大規模叢集内部和叢集之間拷貝的工具。它使用Map/Reduce實作檔案分發，錯誤處理和恢複，以及報告生成。它把檔案和目錄的清單作為map任務的輸入，每個任務會完成源清單中部分檔案的拷貝。由于使用了Map/Reduce方法，這個工具在語義和執行上都會有特殊的地方。這篇文檔會為常用DistCp操作提供指南并闡述它的工作模型。

使用方法

基本使用方法

DistCp最常用在叢集之間的拷貝：

bash$ hadoop distcp hdfs://nn1:8020/foo/bar /

hdfs://nn2:8020/bar/foo

這條指令會把nn1叢集的/foo/bar目錄下的所有檔案或目錄名展開并存儲到一個臨時檔案中，這些檔案内容的拷貝工作被配置設定給多個map任務，然後每個TaskTracker分别執行從nn1到nn2的拷貝操作。注意DistCp使用絕對路徑進行操作。

指令行中可以指定多個源目錄：

bash$ hadoop distcp hdfs://nn1:8020/foo/a /

hdfs://nn1:8020/foo/b /

hdfs://nn2:8020/bar/foo

或者使用-f選項，從檔案裡獲得多個源：

bash$ hadoop distcp -f hdfs://nn1:8020/srclist /

hdfs://nn2:8020/bar/foo

其中srclist 的内容是

hdfs://nn1:8020/foo/a

hdfs://nn1:8020/foo/b

當從多個源拷貝時，如果兩個源沖突，DistCp會停止拷貝并提示出錯資訊，如果在目的位置發生沖突，會根據選項設定解決。預設情況會跳過已經存在的目标檔案（比如不用源檔案做替換操作）。每次操作結束時都會報告跳過的檔案數目，但是如果某些拷貝操作失敗了，但在之後的嘗試成功了，那麼報告的資訊可能不夠精确（請參考附錄）。

每個TaskTracker必須都能夠與源端和目的端檔案系統進行通路和互動。對于HDFS來說，源和目的端要運作相同版本的協定或者使用向下相容的協定。（請參考不同版本間的拷貝）。

拷貝完成後，建議生成源端和目的端檔案的清單，并交叉檢查，來确認拷貝真正成功。因為DistCp使用Map/Reduce和檔案系統API進行操作，是以這三者或它們之間有任何問題都會影響拷貝操作。一些Distcp指令的成功執行可以通過再次執行帶-update參數的該指令來完成，但使用者在如此操作之前應該對該指令的文法很熟悉。

值得注意的是，當另一個用戶端同時在向源檔案寫入時，拷貝很有可能會失敗。嘗試覆寫HDFS上正在被寫入的檔案的操作也會失敗。如果一個源檔案在拷貝之前被移動或删除了，拷貝失敗同時輸出異常 FileNotFoundException。

選項

選項索引

辨別描述備注

-p[rbugp] Preserve

r: replication number

b: block size

u: user

g: group

p: permission

修改次數不會被保留。并且當指定 -update 時，更新的狀态不會被同步，除非檔案大小不同（比如檔案被重新建立）。

-i 忽略失敗就像在附錄中提到的，這個選項會比預設情況提供關于拷貝的更精确的統計，同時它還将保留失敗拷貝操作的日志，這些日志資訊可以用于調試。最後，如果一個map失敗了，但并沒完成所有分塊任務的嘗試，這不會導緻整個作業的失敗。

-log <logdir> 記錄日志到 <logdir> DistCp為每個檔案的每次嘗試拷貝操作都記錄日志，并把日志作為map的輸出。如果一個map失敗了，當重新執行時這個日志不會被保留。

-m <num_maps> 同時拷貝的最大數目指定了拷貝資料時map的數目。請注意并不是map數越多吞吐量越大。

-overwrite 覆寫目标如果一個map失敗并且沒有使用-i選項，不僅僅那些拷貝失敗的檔案，這個分塊任務中的所有檔案都會被重新拷貝。就像下面提到的，它會改變生成目标路徑的語義，是以使用者要小心使用這個選項。

-update 如果源和目标的大小不一樣則進行覆寫像之前提到的，這不是"同步"操作。執行覆寫的唯一标準是源檔案和目标檔案大小是否相同；如果不同，則源檔案替換目标檔案。像下面提到的，它也改變生成目标路徑的語義，使用者使用要小心。

-f <urilist_uri> 使用<urilist_uri> 作為源檔案清單這等價于把所有檔案名列在指令行中。 urilist_uri 清單應該是完整合法的URI。

更新和覆寫

這裡給出一些 -update和 -overwrite的例子。考慮一個從/foo/a 和 /foo/b 到 /bar/foo的拷貝，源路徑包括：

hdfs://nn1:8020/foo/a

hdfs://nn1:8020/foo/a/aa

hdfs://nn1:8020/foo/a/ab

hdfs://nn1:8020/foo/b

hdfs://nn1:8020/foo/b/ba

hdfs://nn1:8020/foo/b/ab

如果沒設定-update或 -overwrite選項，那麼兩個源都會映射到目标端的 /bar/foo/ab。如果設定了這兩個選項，每個源目錄的内容都會和目标目錄的内容做比較。DistCp碰到這類沖突的情況會終止操作并退出。

預設情況下，/bar/foo/a 和 /bar/foo/b 目錄都會被建立，是以并不會有沖突。

現在考慮一個使用-update合法的操作:

distcp -update hdfs://nn1:8020/foo/a /

hdfs://nn1:8020/foo/b /

hdfs://nn2:8020/bar

其中源路徑/大小:

hdfs://nn1:8020/foo/a

hdfs://nn1:8020/foo/a/aa 32

hdfs://nn1:8020/foo/a/ab 32

hdfs://nn1:8020/foo/b

hdfs://nn1:8020/foo/b/ba 64

hdfs://nn1:8020/foo/b/bb 32

和目的路徑/大小:

hdfs://nn2:8020/bar

hdfs://nn2:8020/bar/aa 32

hdfs://nn2:8020/bar/ba 32

hdfs://nn2:8020/bar/bb 64

會産生:

hdfs://nn2:8020/bar

hdfs://nn2:8020/bar/aa 32

hdfs://nn2:8020/bar/ab 32

hdfs://nn2:8020/bar/ba 64

hdfs://nn2:8020/bar/bb 32

隻有nn2的aa檔案沒有被覆寫。如果指定了 -overwrite選項，所有檔案都會被覆寫。

附錄

Map數目

DistCp會嘗試着均分需要拷貝的内容，這樣每個map拷貝差不多相等大小的内容。但因為檔案是最小的拷貝粒度，是以配置增加同時拷貝（如map）的數目不一定會增加實際同時拷貝的數目以及總吞吐量。

如果沒使用-m選項，DistCp會嘗試在排程工作時指定map的數目為 min (total_bytes / bytes.per.map, 20 * num_task_trackers)，其中bytes.per.map預設是256MB。

建議對于長時間運作或定期運作的作業，根據源和目标叢集大小、拷貝數量大小以及帶寬調整map的數目。

不同HDFS版本間的拷貝

對于不同Hadoop版本間的拷貝，使用者應該使用HftpFileSystem。這是一個隻讀檔案系統，是以DistCp必須運作在目标端叢集上（更确切的說是在能夠寫入目标叢集的TaskTracker上）。源的格式是 hftp://<dfs.http.address>/<path> （預設情況dfs.http.address是 <namenode>:50070）。

Map/Reduce和副效應

像前面提到的，map拷貝輸入檔案失敗時，會帶來一些副效應。

除非使用了-i，任務産生的日志會被新的嘗試替換掉。

除非使用了-overwrite，檔案被之前的map成功拷貝後當又一次執行拷貝時會被标記為 "被忽略"。

如果map失敗了mapred.map.max.attempts次，剩下的map任務會被終止（除非使用了-i)。

如果mapred.speculative.execution被設定為 final和true，則拷貝的結果是未定義的。

Hadoop distcp指令

繼續閱讀

《eWEEK》：09年5大科技發展趨勢雲計算居首

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

浮點數計算精度控制

馬哥教育N36第十三周作業

馬哥教育N36第十一周作業

馬哥教育N36第十八周作業

馬哥教育N36第十六周作業

坐标系統和投影變換在桌面産品中的應用

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

C++ 第十五周報告1--《冒泡法排序》

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

JBoss,Geronimo和Glassfish初窺