天天看点

完全分布式集群调用hdfs

调用集群hdfs

(1)上传文件到集群

上传小文件

hdfs dfs -mkdir -p /user/dev1/input
hdfs dfs -put wcinput/words.txt /user/dev1/input      

上传大文件

bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/dev1/input      

(2)上传文件后查看文件存放在什么位置

如何查找出数据块具体存放在datanode的哪个目录下?

我们可以使用find指令进行查找

sudo find  /opt/module/  -name blk_*      

(a)查看HDFS文件存储路径

pwd      

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

(b)查看HDFS在磁盘存储文件内容

cat blk_1073741825      

(3)拼接

如何验证当前的几个blk文件就是hadoop-2.7.2.tar.gz的数据块?

可以将几个数据块的数据都写入到一个临时文件tmp.file,然后下载解压

cat blk_1073741836>>tmp.file
 cat blk_1073741837>>tmp.file
 tar -zxvf tmp.file      
bin/hadoop fs -get /user/dev1/input/hadoop-2.7.2.tar.gz ./      

集群启动/停止方式总结

  1. 各个服务组件逐一启动/停止

    (1)分别启动/停止HDFS组件

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode      
(2)启动/停止YARN      
yarn-daemon.sh  start / stop  resourcemanager / nodemanager      
  1. 各个模块分开启动/停止(配置ssh是前提)常用

    (1)整体启动/停止HDFS

start-dfs.sh   /  stop-dfs.sh      
start-yarn.sh  /  stop-yarn.sh