hadoop生态圈概念

2023-07-29 08:32:35

概念

hadoop生态圈概念

hadoop生态圈主要分為：資源排程器、計算架構、分布式存儲、資料倉庫、分布式資料庫、分布式協調架構、日志收集工具、消息隊列、可視化任務排程器

資源排程器

yarn是hadoop2.0之後的出現的資源排程器。

計算架構

常用的計算架構有：mapreduce、spark、storm，其中mapreduce是批量處理，spark和storm是基于記憶體的流式處理。

分布式存儲

HDFS是Hadoop體系中資料存儲管理的基礎。它是一個高度容錯的系統，能檢測和應對硬體故障，用于在低成本的通用硬體上運作。

HDFS簡化了檔案的一緻性模型，通過流式資料通路，提供高吞吐量應用程式資料通路功能，适合帶有大型資料集的應用程式。

資料倉庫

Hive定義了一種類似SQL的查詢語言(HQL),将SQL轉化為MapReduce任務在Hadoop上執行。通常用于離線分析。

分布式資料庫

HBase是一個資料模型，類似于谷歌的大表設計，可以提供快速随機通路海量結構化資料。它利用了Hadoop的檔案系統（HDFS）提供的容錯能力。

它是Hadoop的生态系統，提供對資料的随機實時讀/寫通路，是Hadoop檔案系統的一部分。

人們可以直接或通過HBase的存儲HDFS資料。使用HBase在HDFS讀取消費/随機通路資料。 HBase在Hadoop的檔案系統之上，并提供了讀寫通路。

分布式協調架構

ZooKeeper是一個分布式的，開放源碼的分布式應用程式協調服務，是Google的Chubby一個開源的實作，它是叢集的管理者，監視着叢集中各個節點的狀态根據節點送出的回報進行下一步合理操作。最終，将簡單易用的接口和性能高效、功能穩定的系統提供給使用者

日志收集工具

flume一個分布式、可信任的彈性系統，用于高效收集、彙聚和移動大規模日志資訊從多種不同的資料源到一個集中的資料存儲中心（HDFS、HBase）。

消息隊列

kafka是一種分布式的、基于釋出/訂閱的消息系統。

– 消息持久化：通過O(1)的磁盤資料結構提供資料的持久化

– 高吞吐量：每秒百萬級的消息讀寫

– 分布式：擴充能力強

– 多用戶端支援：java、php、python、c++

– 實時性：生産者生産的message立即被消費者可見

可視化任務排程器

Oozie是一個可擴充的工作體系，內建于Hadoop的堆棧，用于協調多個MapReduce作業的執行。它能夠管理一個複雜的系統，基于外部事件來執行，外部事件包括資料的定時和資料的出現。

HUE是一種可快速開發和調試TDH各種應用的使用開發工具，是基于Web的圖形化的使用者接口。通過使用Hue，使用者可以操作Inceptor、管理叢集中的資料、在資料庫之間導入/導出資料、建立和編輯工作流、浏覽HyperBase資料庫等。它對Spark和Hadoop提供友好的界面支援，通過它可以很友善的浏覽HDFS中的目錄和檔案，編輯SQL并送出查詢語句，檢視不同狀态的作業清單。HUE還支援排程系統Oozie，可進行Workflow的編輯和檢視。

hadoop生态圈概念

概念

資源排程器

計算架構

分布式存儲

資料倉庫

分布式資料庫

分布式協調架構

日志收集工具

消息隊列

可視化任務排程器

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark