天天看點

大資料—Hadoop 3.x—一.概念

2. 發展曆史

  1. 創始人Doug Cutting
  2. Lucene稱為apache基金會的子項目
  3. Lucene面臨跟google一樣的問題,海裡資料存儲問題,檢索問題
  4. DougCutting學習模仿google,創造微型版Nutch
  5. hadoop的産生依賴于google在大資料方面的三篇論文
    1. GFS 産生了 HDFS
    2. Map-Reduce 産生了MR
    3. BigTable 産生了Hbase
  1. 03-04年,google公開了部分GFS和MapReduce的細節,DougCutting用了兩年業餘時間實作了DFS和MapReduce機制,使Nutch性能飙升
  2. 05年,hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會
  3. 06年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被納入hadoop中,Hadoop誕生
  4. 名字來源于Doug Cutting兒子的玩具大象

3.三大發行版本

Apache 最基本的版本

Cloudera 内部內建了很多大資料架構 對應産品CDH

Hortonworks 文檔較好 對應産品HDP 已被Cloudera收購,推出産品CDP

4.優勢

  1. 高可靠性 底層多個資料副本
  2. 高擴充性 動态增加節點
  3. 高效性 并行工作
  4. 高容錯性

5. 組成

  1. 1.x
    1. Common 輔助工具
    2. HDFS 資料存儲
    3. MapReduce 計算+資源排程
  1. 2.x
    1. Yarn 資源排程
    2. MapReduce 計算
  1. 3.x
    1. 無變化

6. 各組成概述

6.1 HDFS概述

Hadoop Distributed File System

  1. NameNode 資料的存儲情況
  2. DataNode 存儲資料
  3. 2NN 對NN進行備份

6.2 YARN概述

Yet Another Resource Negotiator 另一種資源協調者

  1. ResourceManager 整個叢集資源的管理者
  2. NodeManager 單節點資源的管理者
  3. ApplicationMaster 單個任務運作的管理者
  4. Container 容器

6.3 MapReduce概述

分為Map Reduce兩部分

7. 生态體系

大資料—Hadoop 3.x—一.概念