完全分布式集群调用hdfs

2022-09-16 06:00:47

调用集群hdfs

（1）上传文件到集群

上传小文件

hdfs dfs -mkdir -p /user/dev1/input
hdfs dfs -put wcinput/words.txt /user/dev1/input

上传大文件

bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/dev1/input

（2）上传文件后查看文件存放在什么位置

如何查找出数据块具体存放在datanode的哪个目录下?

我们可以使用find指令进行查找

sudo find  /opt/module/  -name blk_*

（a）查看HDFS文件存储路径

pwd

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

（b）查看HDFS在磁盘存储文件内容

cat blk_1073741825

（3）拼接

如何验证当前的几个blk文件就是hadoop-2.7.2.tar.gz的数据块？

可以将几个数据块的数据都写入到一个临时文件tmp.file,然后下载解压

cat blk_1073741836>>tmp.file
 cat blk_1073741837>>tmp.file
 tar -zxvf tmp.file

bin/hadoop fs -get /user/dev1/input/hadoop-2.7.2.tar.gz ./

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

（2）启动/停止YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

start-dfs.sh   /  stop-dfs.sh

start-yarn.sh  /  stop-yarn.sh