一、特點
1、高可靠性
2、高擴充性
3、高效性
4、高容錯性
二、發行版本
1、Apache版本
2、CDH版本
3、Hortonworks版本
三、Hadoop版本差別
Hadoop 1.X
HDFS 資料存儲
MapReduce 計算 + 資源排程
Hadoop2.X
Yarn 資源排程
MapReduce 計算
四、HDFS組成
1、NameNode(nn):絕世武功的目錄
2、DataNode(dn):絕世武功的所有書籍
3、Secondary NameNode(2nn):輔助NameNode
五、YARN組成
1、ResourceManager (RM)
a、處理用戶端請求
b、監控NodeManager
c、啟動或監控ApplicationMaster,ApplicationMaster ->(Job)
d、資源配置設定和排程
2、NoteManage
a、管理該節點的資源
b、處理來自ResourceManager的指令
c、處理來自ApplicationMaster的指令
3、ApplicationMaster
a、負責資料的切分
b、為應用程式申請資源并配置設定給内部的任務
c、任務的監督與容錯
4、Container
是YARN中的資源抽象,它封裝了某個節點上的多個次元資源,如記憶體、CPU、磁盤網絡等
六、MapReduce
1、Map
并行處理輸入資料
2、Reduce
對Mao的結果進行彙總
七、大資料生态體系