天天看點

hadoop生态圈概念

概念

hadoop生态圈概念

 hadoop生态圈主要分為:資源排程器、計算架構、分布式存儲、資料倉庫、分布式資料庫、分布式協調架構、日志收集工具、消息隊列、可視化任務排程器

資源排程器

yarn是hadoop2.0之後的出現的資源排程器。

計算架構

常用的計算架構有:mapreduce、spark、storm,其中mapreduce是批量處理,spark和storm是基于記憶體的流式處理。

分布式存儲

HDFS是Hadoop體系中資料存儲管理的基礎。它是一個高度容錯的系統,能檢測和應對硬體故障,用于在低成本的通用硬體上運作。

HDFS簡化了檔案的一緻性模型,通過流式資料通路,提供高吞吐量應用程式資料通路功能,适合帶有大型資料集的應用程式。

資料倉庫

Hive定義了一種類似SQL的查詢語言(HQL),将SQL轉化為MapReduce任務在Hadoop上執行。通常用于離線分析。

分布式資料庫

HBase是一個資料模型,類似于谷歌的大表設計,可以提供快速随機通路海量結構化資料。它利用了Hadoop的檔案系統(HDFS)提供的容錯能力。

它是Hadoop的生态系統,提供對資料的随機實時讀/寫通路,是Hadoop檔案系統的一部分。

人們可以直接或通過HBase的存儲HDFS資料。使用HBase在HDFS讀取消費/随機通路資料。 HBase在Hadoop的檔案系統之上,并提供了讀寫通路。

分布式協調架構

ZooKeeper是一個分布式的,開放源碼的分布式應用程式協調服務,是Google的Chubby一個開源的實作,它是叢集的管理者,監視着叢集中各個節點的狀态根據節點送出的回報進行下一步合理操作。最終,将簡單易用的接口和性能高效、功能穩定的系統提供給使用者

日志收集工具

flume一個分布式、可信任的彈性系統,用于高效收集、彙聚和移動大規模日志資訊從多種不同的資料源到一個集中的資料存儲中心(HDFS、HBase)。

消息隊列

kafka是一種分布式的、基于釋出/訂閱的消息系統。

– 消息持久化:通過O(1)的磁盤資料結構提供資料的持久化

– 高吞吐量:每秒百萬級的消息讀寫

– 分布式:擴充能力強

– 多用戶端支援:java、php、python、c++

– 實時性:生産者生産的message立即被消費者可見

可視化任務排程器

Oozie是一個可擴充的工作體系,內建于Hadoop的堆棧,用于協調多個MapReduce作業的執行。它能夠管理一個複雜的系統,基于外部事件來執行,外部事件包括資料的定時和資料的出現。

HUE是一種可快速開發和調試TDH各種應用的使用開發工具,是基于Web的圖形化的使用者接口。通過使用Hue,使用者可以操作Inceptor、管理叢集中的資料、在資料庫之間導入/導出資料、建立和編輯工作流、浏覽HyperBase資料庫等。它對Spark和Hadoop提供友好的界面支援, 通過它可以很友善的浏覽HDFS中的目錄和檔案,編輯SQL并送出查詢語句,檢視不同狀态的作業清單。HUE還支援排程系統Oozie, 可進行Workflow的編輯和檢視。

繼續閱讀