天天看點

大資料王者之路 - Ambari 01 簡介

Ambari是ASF(Apache Software Foundation)中的一個項目,并且是一個頂級項目,緻力于讓Hadoop叢集管理更加簡單。它開發了豐富的RESTful APIs,以及一套直覺易用的WebUI管理界面。

大資料叢集除了我們常見的Hadoop,叢集内還有Hive,Hbase,Sqoop,Zookeeper等。因為大資料這個坑裡,元件特别的多,一個一個安裝配置很麻煩,是以社群孵化了Ambari。就 Ambari的作用來說,就是建立、管理、監視大資料叢集,讓元件更容易整合進來。

它主要是由Cloudera公司參與貢獻開發的(可以檢視

https://ambari.apache.org/team-list.html

)。

功能

它提供了:

provision 必要元件供配(安裝)的功能

一步接一步的安裝面闆進行元件安裝

幫助大資料運維工程師管理叢集上所有服務的配置,配置是版本化的。

managing 管理叢集上的元件

啟動

關閉

更新配置

monitoring 監控叢集上的元件

提供了一個Dashboard(面闆)監控并可用來展示叢集監控和叢集狀态

運用了AMS(Ambari Metrics System)進行監控名額收集

運用了AAF(Ambari Alert Framework)進行系統告警,同時通知運維人員叢集狀态。

使用

目前主要是Cloudera公司使用了Ambari打包封裝提供了一些企業版本的産品,如HDP(Hortonworks Data Platform),CDP(Cloudera Data Platform),CDF(Cloudera DataFlo)。CDF前身為HDF(Hortonworks DataFlow)。

HDP vs HDF

HDP可以簡單了解為一個HadoopCluster Platform,就是一個大資料的存儲和計算平台,關注在HDFS, Yarn以及一些計算引擎的(比如Spark/Tez)管理。

HDF(DataFlow)這個包含Nifi元件(Nifi是一個資料遷移搬運的流式處理架構),更多關注點在于如何把大量的,多種格式的資料,以高效可控的方式導入到大資料存儲層。

是以,我們經常會看HDP + HDF 組合在一起的內建大資料平台。

後續學委會展示一個使用Ambari搭建的叢集,可以先關注,第一時間檢視後續更新