天天看點

大資料相關開源系統簡介彙總

本片部落格介紹大資料相關的開源系統以及他們對應的一句話簡介, 對于各位想大概了解大資料都有哪些開源系統的同學有幫助。各種相關開源系統簡介:

大資料相關開源系統簡介彙總

如下是apache基金支援的開源軟體

hdfs

跟gfs類似, 一個分布式檔案系統。

mapreduce

跟google的mapreduce類似, 一個典型的簡單的分布式計算架構。

yarn

資源管理系統, 跟mesos類比。

avro

跟pb類似, 用于将資料結構序列化成位元組碼, 在不同的語言之間切換。

官方舉例是将c轉換給pig。

bigtop

一個給hadoop打包和測試的軟體。其本來是cloudera公司自己給自己寫的一個友善op部署和搭建環境的工具, 不過因為寫得不錯, 已經成為了apache頂級項目。目前支援系列hadoop生态鍊中的軟體: zookeeper, flume, hbase, pig, hive, sqoop, oozie, whirr, mahout, solrcloud, crunch, datafu and hue

chukwa

收集各種實時監控資料(比如日志)并固化到hdfs上的事情。

drill

google的dremel的開源版本。pb以上資料實時秒級查詢。

flume

用來做資料遷移的工具。支援資料包括avro, files, 系統日志, 落地的系統包括hdfs, hbase。

hbase

google的bigtable的開源版本。寬列存儲, 底層基于hdfs。

hcatalog

為hdfs做的一個管理metadata的系統。基于hive, 提供服務給mapreduce, pig, 将來會支援hbase。

hive

支援hsql, 将sql轉換成mapreduce任務。

mahout

一個資料挖掘, 機器分析的算法庫。

oozie

用來管理hadoop中的多輪任務的工具, 類似dag管理工具。

tez

也是多個任務的dag管理工具, 但是其做得更底層,直接替代了mr的排程程式,多個任務之間的資料傳遞不用再落地到hdfs上了。

pig

跟hive類似, 提供比裸寫mr更友好的界面, 然後翻譯成mapreduce。隻是hive提供的是sql, pig提供的是更進階别的語言pig-latin, 供使用者做資料挖掘和分析。

sqoop

sql-to-hadoop。将關系型資料庫中的資料導入到hadoop當中。

zookeeper

提供高可用的存儲服務。内部采用paxos一緻性協定。

whirr

用于将hadoop放到各種iaas裡面去運作的環境部署類項目。

crunch

用來管理hadoop/spark上面的pipeline的軟體。應該是比pig/hive更低一個級别的抽象, 提供資料的join/aggregation的java api。

datafu

為pig而準備的系列資料挖掘算法軟體包。

hue

hadoop的漂亮平台化界面。

如下是非apache組織的一些項目

spark

支援疊代式計算。将mapreduce的一輪一輪計算的概念轉換成同一批資料不停處理的概念, 并提供進階語言。

shark

hive on spark。即支援hsql。

impala(cloudera)

另一個google的dremel的開源版本, 界面跟hive類似(事實上就是使用的hive-sql的子集), 隻是不是翻譯成mapreduce而是直接查詢。

sentry(cloudera)

在hive/impala之上獨立的一層專門做認證授權的系統。

solrcloud

solr+hadoop, big data search。

本文作者:佚名

來源:51cto