天天看點

《Hadoop MapReduce實戰手冊》一2.11 在HDFS中合并檔案

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第2章,第2.11節,作者: 【美】srinath perera , thilina gunarathne 譯者: 楊卓荦 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

本節将傳授如何合并hdfs中的若幹檔案,以建立一個單獨的檔案。對于擷取有多個輸出部分結果的reducer的mapreduce作業的計算結果來說,這招非常有用。

操作步驟

hdfs的getmerge指令可以将hdfs中給定路徑下的檔案,複制到本地檔案系統的單個合并後的檔案中。

工作原理

getmerge指令的文法如下:

getmerge指令有三個參數。第一個參數——是hdfs路徑,它包含要連接配接檔案的hdfs目錄。是合并檔案的本地檔案名。addnl為可選參數,表示是否需要在每一個合并後的結果檔案末尾添加新行。

繼續閱讀