天天看点

大数据—Hadoop 3.x—一.概念

2. 发展历史

  1. 创始人Doug Cutting
  2. Lucene称为apache基金会的子项目
  3. Lucene面临跟google一样的问题,海里数据存储问题,检索问题
  4. DougCutting学习模仿google,创造微型版Nutch
  5. hadoop的产生依赖于google在大数据方面的三篇论文
    1. GFS 产生了 HDFS
    2. Map-Reduce 产生了MR
    3. BigTable 产生了Hbase
  1. 03-04年,google公开了部分GFS和MapReduce的细节,DougCutting用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升
  2. 05年,hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会
  3. 06年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入hadoop中,Hadoop诞生
  4. 名字来源于Doug Cutting儿子的玩具大象

3.三大发行版本

Apache 最基本的版本

Cloudera 内部集成了很多大数据框架 对应产品CDH

Hortonworks 文档较好 对应产品HDP 已被Cloudera收购,推出产品CDP

4.优势

  1. 高可靠性 底层多个数据副本
  2. 高扩展性 动态增加节点
  3. 高效性 并行工作
  4. 高容错性

5. 组成

  1. 1.x
    1. Common 辅助工具
    2. HDFS 数据存储
    3. MapReduce 计算+资源调度
  1. 2.x
    1. Yarn 资源调度
    2. MapReduce 计算
  1. 3.x
    1. 无变化

6. 各组成概述

6.1 HDFS概述

Hadoop Distributed File System

  1. NameNode 数据的存储情况
  2. DataNode 存储数据
  3. 2NN 对NN进行备份

6.2 YARN概述

Yet Another Resource Negotiator 另一种资源协调者

  1. ResourceManager 整个集群资源的管理者
  2. NodeManager 单节点资源的管理者
  3. ApplicationMaster 单个任务运行的管理者
  4. Container 容器

6.3 MapReduce概述

分为Map Reduce两部分

7. 生态体系

大数据—Hadoop 3.x—一.概念