HDFS- 資料複制資料複制（Data Replication）資料複制流水線參考文獻

2023-07-05 03:50:53

資料複制（Data Replication）

HDFS

旨在跨大型叢集中的計算機可靠地存儲非常大的檔案。它将每個檔案存儲為一系列塊，除最後一個塊之外的檔案中的所有塊都具有相同的大小，

HDFS

使用的預設塊大小為

128MB

。複制檔案的塊以實作容錯，且一般複制出的檔案塊會存儲到不同的

DataNode

中。每個檔案的

Block

大小和

Replication

因子都是可配置的。。

Replication

因子在檔案建立的時候會預設讀取用戶端的

HDFS

配置，然後建立(可改變)

HDFS 中的檔案是 write-one ，并且嚴格要求在任何時候隻有一個 writer

HDFS

資料備援複制如圖所示。

HDFS- 資料複制資料複制（Data Replication）資料複制流水線參考文獻

從圖可以看到，檔案

/user/nuoline/data/part-1

的複制因子

Replication

值是

，塊的

ID

清單包括

{1,3}

，可以看到塊1和塊3分别被備援備份了兩份資料塊;

檔案

/user/nuoline/data/part-2

的複制因子

Replication

值是

，塊的ID清單包括2、4、5，可以看到塊

{2,4,5}

分别被備援複制了三份。

在 HDFS 中， NameNode 做着有關塊複制的所有決定，它定期從群集中的每個 DataNode 接收 Heartbeat 和 Blockreport 。心跳包( Heartbeat )的接收表示該 DataNode 節點正常工作，而 Blockreport 包括了該 DataNode 上所有的 Block 組成的清單

資料複制流水線

當用戶端将資料寫入複制因子為

r = 3

的

HDFS

檔案時，

NameNode

使用

replication target choosing algorithm

檢索

DataNode

清單。此清單包含将承載該塊副本的

DataNode

。

然後用戶端向第一個

DataNode

寫入，第一個

DataNode

開始分批接收資料，将每個部分寫入其本地存儲，并将該部分傳輸到清單中的第二個

DataNode

。第二個

DataNode

又開始接收資料塊的每個部分，将該部分寫入其存儲，然後将該部分重新整理到第三個

DataNode

。最後，第三個

DataNode

将資料寫入其本地存儲。

可見，

DataNode

是從流水線中的前一個接收資料，同時将資料轉發到流水線中的下一個，資料是從一個

DataNode

流水線到下一個

DataNode

。

操作命名

應用可以以多種方式操控 HDFS 上的檔案，其中通過 FS Shell 可以像操控 Linux 檔案系統一般，常用指令有：

hdfs dfs -cp /user/merge /user/search

上面的指令将merge檔案下面的所有檔案（包括merge檔案夾）複制到search目錄下。

Action	Command
建立 foodir 檔案夾	bin/hadoop fs -mkdir /foodir
删除檔案夾	bin/hadoop fs -rm -R /foodir
檢視檔案内容	bin/hdfs dfs -cat /foodir/myfile.txt
上傳檔案	bin/hdfs dfs -copyFromLocal ~/a.txt /foodir/
……	……

會發現這裡有兩種指令字首，一個是 hadoop fs，一個是 hdfs dfs

差別是：hadoop fs 可以用于其他檔案系統，不止是hdfs檔案系統内，也就是說該指令的使用範圍更廣；而 hdfs dfs 專門針對hdfs分布式檔案系統。

還有一個字首為 hadoop dfs，這個已經過時，建議不要使用。

參考文獻

Hadoop：HDFS的資料複制

HDFS- 資料複制資料複制（Data Replication）資料複制流水線參考文獻

資料複制（Data Replication）

資料複制流水線

操作命名

參考文獻

繼續閱讀

Hadoop FSDataInputStream 和FSDataOutputStream 用法

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理