天天看點

Hadoop生态系統工具指南

Hadoop生态系統工具指南

hadoop工具生态系統生長迅速,以下是it經理網整理的最新hadoop工具資源,供it經理日常參考,歡迎讀者來信或留言補充。

hadoop

apache hadoop項目負責開發可靠的、可擴充的分布式計算開源軟體。

hdfs

分布式檔案系統提供高速的應用資料通路。

mapreduce

在計算機叢集上進行大資料分布式處理的軟體架構。

亞馬遜elastic mapreduce

亞馬遜elastic mapreduce是一種web服務,能讓企業、研究人員、資料分析師和開發者低成本快速處理海量資料。該服務是托管于亞馬遜彈性雲(ec2)和亞馬遜s3存儲雲上的web大規模基礎架構上的hadoop架構。

cloudera hadoop發行版(cdh)

cloudera的hadoop發行版(cdh)為基于hadoop的資料管理平台樹立了新的标杆。

zookeeper

針對分布式應用的高性能協調服務。zookeeper為配置資訊、命名提供集中化管理服務,支援分布式同步,并提供群組服務。

hbase

可擴充的分布式資料庫,支援大表(big table)的結構化資料存儲。

avro

<a target="_blank" href="http://avro.apache.org/">avro.apache.org</a>

sqoop

sqoop(sql-to-hadoop),是指令行工具,有以下功能:

● 将單獨的表或者整個資料庫導入hdfs檔案

● 通用java庫支援與導入資料的互動

● 支援将sql資料庫直接導入你的hive資料倉庫

flume

flume是一個分布式高可靠的大資料傳輸服務。

hive

hive是基于hadoop的資料倉庫基礎架構,提供的工具能進行簡便的資料彙總、ad-hoc查詢,以及對存儲在hadoop檔案中的大資料集的分析。hive提供一種簡單易用的查詢語言——hive ql,該語言基于sql,這意味着那些對sql熟悉的使用者可以像使用sql資料庫一樣查詢大資料。hive ql還雲尋傳統的map/reduce程式員插入他們自己的mappers和reducers,進行更為複雜的分析。

pig

pig是一種高階資料流語言和并行計算的執行架構。apache pig是一個大資料集分析平台,提供了一種表達資料分析程式的高階語言,以及評估這些程式的基礎架構。pig程式的最大優點是其架構能為底層并行化進行調整,進而能處理非常大規模的資料集。

oozie

oozie 是一個開源的工作流和協作服務引擎,為管理apache hadoop資料處理任務提供工作流/協作服務。oozie 是可擴充的、可伸縮的面向資料的服務,運作在hadoop 平台上,協調hadoop上運作的不同任務(包括hdfs,pig和mapreduce)。

oozie 包括一個離線的hadoop處理的工作流解決方案,以及一個查詢處理 api。

cascading

cascading是一個查詢api和查詢計劃器,被用于定義和執行hadoop叢集上運作的複雜、可自由擴充、可容錯的資料處理工作流。

cascalog

cascalog一種能使在hadoop上使用clojure處理資料變得簡單直覺的工具。cascalog綜合了兩大頂尖技術:clojure和hadoop,同時讓datalog煥發青春。cascalog的特點是高性能、靈活和魯棒。

hue

hue是營運和開發hadoop應用的圖形化使用者界面。hue程式被整合到一個類似桌面的環境,以web程式的形式釋出,對于單獨的使用者來說不需要額外的安裝。

chukwa

chukwa是面向大型分布式系統的資料采集系統。chukwa基于hadoop hdfs和map/reduce架構之上,繼承了hadoop的可擴充性和容錯性。chukwa還提供一個靈活而強大的工具包,用于顯示、監控和分析分析結果,更好地利用所收集的資料。

mahout

一種可擴充的機器學習和數挖掘庫。