2. 發展曆史
- 創始人Doug Cutting
- Lucene稱為apache基金會的子項目
- Lucene面臨跟google一樣的問題,海裡資料存儲問題,檢索問題
- DougCutting學習模仿google,創造微型版Nutch
- hadoop的産生依賴于google在大資料方面的三篇論文
-
- GFS 産生了 HDFS
- Map-Reduce 産生了MR
- BigTable 産生了Hbase
- 03-04年,google公開了部分GFS和MapReduce的細節,DougCutting用了兩年業餘時間實作了DFS和MapReduce機制,使Nutch性能飙升
- 05年,hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會
- 06年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被納入hadoop中,Hadoop誕生
- 名字來源于Doug Cutting兒子的玩具大象
3.三大發行版本
Apache 最基本的版本
Cloudera 内部內建了很多大資料架構 對應産品CDH
Hortonworks 文檔較好 對應産品HDP 已被Cloudera收購,推出産品CDP
4.優勢
- 高可靠性 底層多個資料副本
- 高擴充性 動态增加節點
- 高效性 并行工作
- 高容錯性
5. 組成
- 1.x
-
- Common 輔助工具
- HDFS 資料存儲
- MapReduce 計算+資源排程
- 2.x
-
- Yarn 資源排程
- MapReduce 計算
- 3.x
-
- 無變化
6. 各組成概述
6.1 HDFS概述
Hadoop Distributed File System
- NameNode 資料的存儲情況
- DataNode 存儲資料
- 2NN 對NN進行備份
6.2 YARN概述
Yet Another Resource Negotiator 另一種資源協調者
- ResourceManager 整個叢集資源的管理者
- NodeManager 單節點資源的管理者
- ApplicationMaster 單個任務運作的管理者
- Container 容器
6.3 MapReduce概述
分為Map Reduce兩部分