天天看点

四大分布式存储系统(HDFS,KFS,CEPH,PANASAS)

  那么“云”倒底是什么,或者说由哪些技术所构成呢?要回答这个问题,首先我们来看“云”技术的分层架构,一般可以大致分为以下三层:

  第一层是基础设施层,如IDC机房,服务器以及网络。其中,“软件定义网络”发生在这一层中,虚拟网络涉及到非常多的技术,如虚拟网卡或者switch,overlay,vxlan等。IaaS(Infrastructure As a Service: 基础设施服务)一般就是指将这一层的能力进行虚拟化,提供“云”服务。一般“公有云”客户按时间进行租用。

  第二层是存储层,将所有独立的存储服务器进行集中式统一管理。而对统一存储来讲,一般就是大家所熟知的分布式存储了,如开源社区的Ceph,Google的GFS,Hadoop生态的HDFS等。业界所谓的“软件定义存储”,就是指这一层。

  第三层是计算层,计算层涉及到的面是最广的。如中间件,应用,大数据计算(MaxCompute),以及计算存储分离后的数据库等。

  这么分层后,带来的好处就是每一层可以按各自的能力进行极限扩展,虚拟化后,按租户隔离,提供高效率的弹性以及成本缩减等。如Amazon,Google,Azure以及阿里云等。

https://www.strongd.net/?p=1117

1、HDFS

1.1.1 Namenode命名节点

管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog。

不负责存储具体的数据。

FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作。

注意,这个两个都是文件,也会加载解析到内存中。

1.1.2 DataNode数据节点

维护了blockId 与 datanode本地文件的映射。 需要不断的与namenode节点通信,来告知其自己的信息,方便nameode来管控整个系统。就像linux本地文件系统中也有块的概念一样,这里也有块的概念。这里的块会默认是128m 每个块都会默认储存三份。

https://blog.csdn.net/weixin_38750084/article/details/82963235 hadoop:hdfs架构及原理