Hadoop發展史:
- Lucene —— Google是Lucene思想之源,基于GFS-> HDFS、Map-Reduce -> MR、BigTale -> Hbase ,核心人物:Doug Cutting;
- 三大發新版本:Apache、Cloudera、Hortonworks
Hadoop的優勢(4高)
- 高效:MapReduce思想,并行作業
- 高穩定:多個資料副本
- 高容錯性:自動把失敗的任務重新配置設定
- 高擴充:擴充節點
Hadoop1.x和Hadoop2.x的差別
- Hadoop1.x 由MapReduce(計算+資源排程)、HDFS(資料存儲)、Common(輔助工具)組成
- Hadoop2.x 由MapReduce(計算)、Yarn(資源排程)、HDFS(資料存儲)、Common(輔助工具)組成
- Hadoop2.x 将計算和資源排程成功解耦
HDFS架構
- NameNode(nn):存儲檔案的源資料(比如檔案名,檔案目錄結構)
- DataNode(dn):存儲檔案的塊資料(實實在在的資料)
- Secondary NameNode(2nn):NameNode的快照
YARN架構
節點-》伺服器
- ResoureManager(RM):負責整個叢集資源的配置設定排程(1)處理用戶端請求;(2)監控NodeManager;(3)起訂或監控ApplicationMater ;(4)資源的配置設定與排程
- NodeManager(NM):負責整個節點的資源(1)管理單個節點資源;(2)處理來自ResourceManager的指令;(3)處理來自ApplicationMaster的指令
- ApplicationMaster:負責某個具體任務的資源等;如資料的切分;申請資源給内部任務,任務的監控額容錯
- Container : 為ApplicationMaster服務,抽象出來的資源,包括記憶體、CPU、磁盤、網絡。
MapReduce架構
分兩個階段:Map(分)和reduce(聚合)
大資料技術生态體系
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5yMwMTMxMjNhFzNhFWY4QDOmFWZ0czYyYmZzMWN5QDN58CX5d2bs92Yl1iclB3bsVmdlR2LcNWaw9CXt92Yu4GZjlGbh5yYjV3Lc9CX6MHc0RHaiojIsJye.png)