天天看點

大資料Hadoop學習筆記(一) 基礎

Hadoop發展史:

  1. Lucene —— Google是Lucene思想之源,基于GFS-> HDFS、Map-Reduce -> MR、BigTale -> Hbase ,核心人物:Doug Cutting;
  2. 三大發新版本:Apache、Cloudera、Hortonworks

Hadoop的優勢(4高)

  1. 高效:MapReduce思想,并行作業
  2. 高穩定:多個資料副本
  3. 高容錯性:自動把失敗的任務重新配置設定
  4. 高擴充:擴充節點

Hadoop1.x和Hadoop2.x的差別

  1. Hadoop1.x 由MapReduce(計算+資源排程)、HDFS(資料存儲)、Common(輔助工具)組成
  2. Hadoop2.x 由MapReduce(計算)、Yarn(資源排程)、HDFS(資料存儲)、Common(輔助工具)組成
  3. Hadoop2.x 将計算和資源排程成功解耦

HDFS架構

  1. NameNode(nn):存儲檔案的源資料(比如檔案名,檔案目錄結構)
  2. DataNode(dn):存儲檔案的塊資料(實實在在的資料)
  3. Secondary NameNode(2nn):NameNode的快照

YARN架構

節點-》伺服器

  1. ResoureManager(RM):負責整個叢集資源的配置設定排程(1)處理用戶端請求;(2)監控NodeManager;(3)起訂或監控ApplicationMater ;(4)資源的配置設定與排程
  2. NodeManager(NM):負責整個節點的資源(1)管理單個節點資源;(2)處理來自ResourceManager的指令;(3)處理來自ApplicationMaster的指令
  3. ApplicationMaster:負責某個具體任務的資源等;如資料的切分;申請資源給内部任務,任務的監控額容錯
  4. Container : 為ApplicationMaster服務,抽象出來的資源,包括記憶體、CPU、磁盤、網絡。

MapReduce架構

分兩個階段:Map(分)和reduce(聚合)

大資料技術生态體系

大資料Hadoop學習筆記(一) 基礎
大資料Hadoop學習筆記(一) 基礎