Hadoop中的FileStatus、BlockLocation、LocatedBlocks、InputSplit1 FileStatus2 BlockLocation3 LocatedBlocks

2021-11-07 16:02:18

1.1 包名

org.apache.hadoop.fs.filestatus

1.2 格式

filestatus{path=hdfs://192.x.x.x:9000/hadoop-2.7.1.tar.gz; isdirectory=false; length=210606807; replication=3; blocksize=134217728; modification_time=xxx; access_time=xxx; owner=xxx; group=supergroup;

permission=rw-r--r--; issymlink=false}

2.1 包名

org.apache.hadoop.fs.blocklocation

2.2 調用處

jobclient的writenewsplits方法，其中調用了list<inputsplit> splits = input.getsplits(job)方法，在getsplits方法中調用了getfilelocation()。

2.3 格式

total block num:2

0,134217728,192.x.x.x

檔案在block中的偏移量0, 長度134217728

134217728,76389079,192.x.x.x

檔案在block中的偏移量134217728, 長度76389079

splits數組資訊

[hdfs://192.x.x.x:9000/hadoop-2.7.1.tar.gz:0+134217728,

hdfs://192.x.x.x:9000/hadoop-2.7.1.tar.gz:134217728+31987190]

3.1 包名

org.apache.hadoop.hdfs.protocol.locatedblocks

3.2 調用處

在hdfs讀取檔案時調用openinfo()方法，最終調用的是dfsinputstream的fetchlocatedblocksandgetlastblocklength方法擷取塊資訊locatedblocks。塊的資訊非常詳盡，如塊名稱，大小，起始偏移量，ip位址等。

在hadoop中寫檔案實際是把block寫入到datanode中，而namenode是通過datanode定期的彙報得知該檔案到底由哪幾個block組成的。是以在讀某個檔案時可能存在datanode還未彙報給namenode的情況，是以在讀檔案時隻能讀到最後一個彙報的block塊。islastblockcomplete可以辨別是否讀取到最後的塊。若不是則會根據中繼資料提供的block的pipeline來到datanode上獲得block的寫入長度，并指派給lastblockbeingwrittenlength。

3.3 格式

Hadoop中的FileStatus、BlockLocation、LocatedBlocks、InputSplit1 FileStatus2 BlockLocation3 LocatedBlocks

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理