各種相關開源系統簡介

　　如下是Apache基金支援的開源軟體

　　hdfs

　　跟GFS類似, 一個分布式檔案系統。

　　mapreduce

　　跟Google的MapReduce類似, 一個典型的簡單的分布式計算架構。

　　yarn

　　資源管理系統, 跟Mesos類比。

　　Avro

　　跟PB類似, 用于将資料結構序列化成位元組碼, 在不同的語言之間切換。

　　官方舉例是将C轉換給Pig。

　　BigTop

　　一個給Hadoop打包和測試的軟體。其本來是cloudera公司自己給自己寫的一個友善OP部署和搭建環境的工具, 不過因為寫得不錯, 已經成為了Apache頂級項目。目前支援系列Hadoop生态鍊中的軟體: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue

　　Chukwa

　　收集各種實時監控資料(比如日志)并固化到HDFS上的事情。

　　Drill

　　Google的Dremel的開源版本。PB以上資料實時秒級查詢。

　　Flume

　　用來做資料遷移的工具。支援資料包括Avro, files, 系統日志, 落地的系統包括HDFS, HBase。

　　HBase

　　Google的BigTable的開源版本。寬列存儲, 底層基于HDFS。

　　HCatalog

　　為HDFS做的一個管理metadata的系統。基于Hive, 提供服務給MapReduce, Pig, 将來會支HBase。

　　Hive

　　支援HSQL, 将SQL轉換成MapReduce任務。

　　Mahout

　　一個資料挖掘, 機器分析的算法庫。

　　Oozie

　　用來管理Hadoop中的多輪任務的工具, 類似DAG管理工具。

　　Tez

　　也是多個任務的DAG管理工具, 但是其做得更底層，直接替代了

買二手手遊賬号

MR的排程程式，多個任務之間的資料傳遞不用再落地到hdfs上了。

　　Pig

　　跟Hive類似, 提供比裸寫MR更友好的界面, 然後翻譯成MapReduce。隻是Hive提供的是SQL, Pig提供的是更進階别的語言Pig-Latin, 供使用者做資料挖掘和分析。

　　Sqoop

　　Sql-to-Hadoop。将關系型資料庫中的資料導入到Hadoop當中。

　　ZooKeeper

　　提供高可用的存儲服務。内部采用paxos一緻性協定。

　　Whirr

　　用于将Hadoop放到各種IaaS裡面去運作的環境部署類項目。

　　Crunch

　　用來管理Hadoop/Spark上面的Pipeline的軟體。應該是比Pig/Hive更低一個級别的抽象, 提供資料的join/aggregation的Java API。

　　DataFu

　　為Pig而準備的系列資料挖掘算法軟體包。

　　Hue

　　Hadoop的漂亮平台化界面。

　　如下是非Apache組織的一些項目

　　Spark

　　支援疊代式計算。将MapReduce的一輪一輪計算的概念轉換成同一批資料不停處理的概念, 并提供進階語言。

　　Shark

　　Hive On Spark。即支援HSQL。

　　Impala(Cloudera)

　　另一個Google的Dremel的開源版本, 界面跟Hive類似(事實上就是使用的Hive-SQL的子集), 隻是不是翻譯成MapReduce而是直接查詢。

　　Sentry(Cloudera)

　　在Hive/Impala之上獨立的一層專門做認證授權的系統。

　　SolrCloud

　　Solr+Hadoop, Big Data Search。

　　參考

　　Hadoop Software Ecosystem. revelytix/?q=content/hadoop-ecosystemAvro in 3 minutes. youtube/watch?v=3BOkW1iVQOQOLAP技術産品組成. maxatx/olap/index.htm感謝各位支援，點選螢幕右上角的【關注】每天文章不落下。感激不盡！

　　本頭條号文章分類目錄（精心整理）

各種相關開源系統簡介

繼續閱讀

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

ubuntu14.04下安裝hbse1.0.1.1

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

User Defined Hadoop DataType

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離