如下是Apache基金支援的開源軟體
hdfs
跟GFS類似, 一個分布式檔案系統。
mapreduce
跟Google的MapReduce類似, 一個典型的簡單的分布式計算架構。
yarn
資源管理系統, 跟Mesos類比。
Avro
跟PB類似, 用于将資料結構序列化成位元組碼, 在不同的語言之間切換。
官方舉例是将C轉換給Pig。
BigTop
一個給Hadoop打包和測試的軟體。其本來是cloudera公司自己給自己寫的一個友善OP部署和搭建環境的工具, 不過因為寫得不錯, 已經成為了Apache頂級項目。目前支援系列Hadoop生态鍊中的軟體: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue
Chukwa
收集各種實時監控資料(比如日志)并固化到HDFS上的事情。
Drill
Google的Dremel的開源版本。PB以上資料實時秒級查詢。
Flume
用來做資料遷移的工具。支援資料包括Avro, files, 系統日志, 落地的系統包括HDFS, HBase。
HBase
Google的BigTable的開源版本。寬列存儲, 底層基于HDFS。
HCatalog
為HDFS做的一個管理metadata的系統。基于Hive, 提供服務給MapReduce, Pig, 将來會支HBase。
Hive
支援HSQL, 将SQL轉換成MapReduce任務。
Mahout
一個資料挖掘, 機器分析的算法庫。
Oozie
用來管理Hadoop中的多輪任務的工具, 類似DAG管理工具。
Tez
也是多個任務的DAG管理工具, 但是其做得更底層,直接替代了
買二手手遊賬号MR的排程程式,多個任務之間的資料傳遞不用再落地到hdfs上了。
Pig
跟Hive類似, 提供比裸寫MR更友好的界面, 然後翻譯成MapReduce。隻是Hive提供的是SQL, Pig提供的是更進階别的語言Pig-Latin, 供使用者做資料挖掘和分析。
Sqoop
Sql-to-Hadoop。将關系型資料庫中的資料導入到Hadoop當中。
ZooKeeper
提供高可用的存儲服務。内部采用paxos一緻性協定。
Whirr
用于将Hadoop放到各種IaaS裡面去運作的環境部署類項目。
Crunch
用來管理Hadoop/Spark上面的Pipeline的軟體。應該是比Pig/Hive更低一個級别的抽象, 提供資料的join/aggregation的Java API。
DataFu
為Pig而準備的系列資料挖掘算法軟體包。
Hue
Hadoop的漂亮平台化界面。
如下是非Apache組織的一些項目
Spark
支援疊代式計算。将MapReduce的一輪一輪計算的概念轉換成同一批資料不停處理的概念, 并提供進階語言。
Shark
Hive On Spark。即支援HSQL。
Impala(Cloudera)
另一個Google的Dremel的開源版本, 界面跟Hive類似(事實上就是使用的Hive-SQL的子集), 隻是不是翻譯成MapReduce而是直接查詢。
Sentry(Cloudera)
在Hive/Impala之上獨立的一層專門做認證授權的系統。
SolrCloud
Solr+Hadoop, Big Data Search。
參考
Hadoop Software Ecosystem. revelytix/?q=content/hadoop-ecosystemAvro in 3 minutes. youtube/watch?v=3BOkW1iVQOQOLAP技術産品組成. maxatx/olap/index.htm感謝各位支援,點選螢幕右上角的【關注】每天文章不落下。感激不盡!
本頭條号文章分類目錄(精心整理)