初识Hadoop分布式文件系统HDFS

2023-03-18 07:54:37

1.HDFS简介

HDFS是基于JAVA实现的Hadoop分布式文件系统,是Hadoop最重要的核心组件,支持顺序写入,而非随机定位读写.HDFS适合存储大文件,基于普通机器搭建,支持硬件错误检测和快速、自动的恢复。

HDFS在大数据生态系统中所处的角色:

初识Hadoop分布式文件系统HDFS

2.HDFS构成及工作原理解析

HDFS主要是由namenode和datanode组成,其中namenode负责维护整个文件系统的信息,包括:整个文件数,文件的块分布信息,文件系统的元数据和数据复制策略等.datanode存储实际的文件内容,负责文件实际的读写操作,保持与namenode的通信,同步文件块信息.

初识Hadoop分布式文件系统HDFS

HDFS中文件的读取过程:

(1) 由客户端client向namenode发送读取的请求;

(2)namenode收到client的文件请求后,查询文件块的分布信息,并将文件块分布信息返回给client;

(3)client根据收到的文件块分布信息到相应的数据节点中去读取.

初识Hadoop分布式文件系统HDFS

HDFS中文件的写过程:

(1) 由客户端client向namenode发送创建文件的请求,namenode针对请求内容对client进行权限检查,并检查目录是否存在;

(2)namenode经过检查后向client返回确认信息;

(3)client把要写的文件块信息发送给nomenode;

(4)namenode返回数据块写入的节点队列

(5)按照pipeline方式client就近写入数据,比如数据块1要写入dn1,dn4和dn5,client只需把数据写入dn1,然后dn1把数据写入dn4,最后数据再从dn4写入dn5

(6)dn1成功写入数据块后,向client返回响应,同时向namenode发送响应信息,而dn4和dn5只需向namenode发送响应信息即可.

初识Hadoop分布式文件系统HDFS

3.HDFS中的关键信息设置

初识Hadoop分布式文件系统HDFS

继续阅读