大資料Hadoop學習筆記(一) 基礎

2021-11-03 23:50:00

Hadoop發展史：

Lucene —— Google是Lucene思想之源，基于GFS-> HDFS、Map-Reduce -> MR、BigTale -> Hbase ，核心人物：Doug Cutting；
三大發新版本：Apache、Cloudera、Hortonworks

Hadoop的優勢（4高）

高效：MapReduce思想，并行作業
高穩定：多個資料副本
高容錯性：自動把失敗的任務重新配置設定
高擴充：擴充節點

Hadoop1.x和Hadoop2.x的差別

Hadoop1.x 由MapReduce（計算+資源排程）、HDFS（資料存儲）、Common（輔助工具）組成
Hadoop2.x 由MapReduce（計算）、Yarn（資源排程）、HDFS（資料存儲）、Common（輔助工具）組成
Hadoop2.x 将計算和資源排程成功解耦

HDFS架構

NameNode（nn）：存儲檔案的源資料（比如檔案名，檔案目錄結構）
DataNode（dn）：存儲檔案的塊資料（實實在在的資料）
Secondary NameNode（2nn）：NameNode的快照

YARN架構

節點-》伺服器

ResoureManager（RM）：負責整個叢集資源的配置設定排程（1）處理用戶端請求；（2）監控NodeManager；（3）起訂或監控ApplicationMater ；（4）資源的配置設定與排程
NodeManager（NM）：負責整個節點的資源（1）管理單個節點資源；（2）處理來自ResourceManager的指令；（3）處理來自ApplicationMaster的指令
ApplicationMaster：負責某個具體任務的資源等；如資料的切分；申請資源給内部任務，任務的監控額容錯
Container ：為ApplicationMaster服務，抽象出來的資源，包括記憶體、CPU、磁盤、網絡。

MapReduce架構

分兩個階段：Map（分）和reduce（聚合）

大資料技術生态體系

大資料Hadoop學習筆記(一) 基礎

大資料Hadoop學習筆記(一) 基礎

存儲機器學習/深度學習分布式計算資源排程監控 hadoop 大資料排程 apache 容器學習hadoop大資料 hadoop大資料學習 Hadoop學習筆記 Hadoop筆記 hadoop叢集大資料

上一篇: iOS對UIViewController生命周期和屬性方法的解析（二）

下一篇: iOS界面布局之四——使用第三方庫Masonry進行autolayout布局（二）

繼續閱讀