天天看点

hadoop生态圈概念

概念

hadoop生态圈概念

 hadoop生态圈主要分为:资源调度器、计算框架、分布式存储、数据仓库、分布式数据库、分布式协调框架、日志收集工具、消息队列、可视化任务调度器

资源调度器

yarn是hadoop2.0之后的出现的资源调度器。

计算框架

常用的计算框架有:mapreduce、spark、storm,其中mapreduce是批量处理,spark和storm是基于内存的流式处理。

分布式存储

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

数据仓库

Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

分布式数据库

HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。

它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。

人们可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。 HBase在Hadoop的文件系统之上,并提供了读写访问。

分布式协调框架

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户

日志收集工具

flume一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心(HDFS、HBase)。

消息队列

kafka是一种分布式的、基于发布/订阅的消息系统。

– 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化

– 高吞吐量:每秒百万级的消息读写

– 分布式:扩展能力强

– 多客户端支持:java、php、python、c++

– 实时性:生产者生产的message立即被消费者可见

可视化任务调度器

Oozie是一个可扩展的工作体系,集成于Hadoop的堆栈,用于协调多个MapReduce作业的执行。它能够管理一个复杂的系统,基于外部事件来执行,外部事件包括数据的定时和数据的出现。

HUE是一种可快速开发和调试TDH各种应用的使用开发工具,是基于Web的图形化的用户接口。通过使用Hue,用户可以操作Inceptor、管理集群中的数据、在数据库之间导入/导出数据、创建和编辑工作流、浏览HyperBase数据库等。它对Spark和Hadoop提供友好的界面支持, 通过它可以很方便的浏览HDFS中的目录和文件,编辑SQL并提交查询语句,查看不同状态的作业列表。HUE还支持调度系统Oozie, 可进行Workflow的编辑和查看。

继续阅读