天天看點

《Hadoop MapReduce實戰手冊》一2.7 設定檔案備援因子

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第2章,第2.7節,作者: 【美】srinath perera , thilina gunarathne 譯者: 楊卓荦 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

hdfs跨叢集存儲檔案時,會把檔案切分成粗粒度的、大小固定的塊。出于容錯的目的,這些粗粒度的資料塊會被複制到不同的datanode中。資料塊的備援有助于增加資料本地化mapreduce計算的能力,同時也可以增加總的資料通路帶寬。減少備援因子則有助于節省hdfs上的存儲空間。

hdfs備援因子(hdfs replication factor)是檔案級屬性,可以基于每個檔案進行單獨配置。本節将展示如何通過改變hdfs部署的預設備援因子來影響以後建立的新檔案,如何在建立hdfs檔案的時候指定自定義備援因子,以及如何改變現有的hdfs檔案的備援因子。

操作步驟

要使用namenode的配置檔案來設定檔案的備援因子,需要添加或修改<code>`</code>javascript

$hadoop_home/conf/

  dfs.replication

  2

bin/hadoopfs -d dfs.replication=1 -copyfromlocal non-critical-

file.txt /user/foo

bin/hadoopfs -setrep 2 non-critical-file.txt

replication 3 set: hdfs://myhost:9000/user/foo/non-critical-file.txt

hadoopfs -setrep [-r]

bin/hadoopfs -ls

found 1 item

-rw-r--r--2foo supergroup ... /user/foo/non-critical-file.txt

繼續閱讀