2013 Bossie評選：最佳開源大資料工具

mapreduce的出現是為了突破資料庫的局限。giraph、hama以及impala等工具的出現則是為了突破mapreduce的局限。雖然上述方案的運作都需要以hadoop為基礎，但圖形、文檔、列式以及其它nosql資料庫也是大資料當中不可或缺的組成部分。

　　哪款大資料工具能夠滿足您的需求?這個問題在如今解決方案數量迅速增長的背景之下，确實不容易回答。

　　apache hadoop

　　當人們說起“大資料”或者“資料科學”時，他們指的往往是hadoop項目。總體而言，hadoop借用了mapreduce的架構，但該項目同時包含大量與資料存儲及處理密切相關的重要工具。與mapreduce 2.0相似，全新yarn架構的出現标志着hadoop邁出了發展道路上的關鍵步伐。大家可以期待着這一輪大資料浪潮很快出現在各位的業務環境當中。

　　目前還沒有任何一家重量級新興企業依靠apache項目的支援，但hadoop在這方面的人氣則更高一些。分析人士預計，hadoop将最終建構起年市值高達數百億美元的巨大市場。大家千萬别因為預算緊張而錯過了這一波發展良機。

　　-- andrew c. oliver

　　官方網站：http://hadoop.apache.org/

　　apache sqoop

　　說起大資料處理，大家最先想到的肯定是hadoop;但這并不代表傳統資料庫就無法勝任這項工作。事實上，多數情況下我們仍然需要從傳統資料庫中提取分析所需的資料，而這正是apache sqoop的長項。

　　sqoop能夠有效提高傳統資料庫系統與hadoop之間的資料轉換效率，這是因為它采用了并發連接配接、可定制資料類型映射以及中繼資料傳播等一系列技術。大家可以将資料(例如純新資料)導入至hdfs、hive以及hbase當中，也能夠将分析結果傳回到傳統資料庫端。sqoop還可以管理資料連接配接器帶來的記憶體複雜性以及存在比對失誤的資料格式。

　　-- james r. borck

　　官方網站：http://sqoop.apache.org/

　　talend open studio for big data

　　talend open studio for big data允許大家直接向hadoop中載入檔案(通過hdfs、hive以及sqoop等)，而且無需進行手動編碼。其圖形化ide所生成的原生hadoop代碼(支援yarn/mapreduce 2)能夠利用hadoop分布式環境實作大規模資料轉換。

　　talend的虛拟映射工具允許使用者建立資料流并在無需涉及pig的前提下加以測試。此外，項目進度安排與工作優化工具也進一步增強的工具包的功能陣容。

　　着手對大量資料進行整理分析的第一步，是将資料從多種來源處彙聚到hadoop當中，而後再由hadoop轉移至其它平台。talend open studio幫助大家在處理遷移流程時随心所欲，完全不必為擔任複雜性而擔憂。

　　官方網站：http://www.talend.com/products/big-data

　　apache giraph

　　apache giraph是一套圖形處理系統，專為高擴充性及高可用性需求所打造。作為谷歌pregel的開源替代方案，giraph已經被facebook公司用于分析使用者社交圖譜及其彼此關聯。這套系統采用了來自pregel的高效整體同步并行處理模式，進而避免了mapreduce在處理圖形内容時存在的固有問題。好消息是：giraph計算程序可在大家的現有hadoop基礎設施中作為hadoop任務運作。隻要同時運作其它一些同類工具，大家就相當于獲得了分布式圖形處理能力。

　　-- indika kotakadeniya

　　官方網站：http://giraph.apache.org/

　　apache hama

　　與giraph類似，apache hama同樣将整體同步并行處理機制引入hadoop生态系統當中，而且以hadoop分布式檔案系統作為運作基礎。不過與專注于圖形處理任務的giraph不同，hama是一套更具通行特性的架構，旨在執行大量模型與圖像計算任務。它将hadoop的良好相容性與更為靈活的程式設計模式結合起來，為資料密集型科學應用提供出色的運作基礎。

　　http://hama.apache.org/

　　cloudera impala

　　cloudera impala在實時sql查詢中的意義，可以等同于mapreduce在批量處理領域的重要作用。impala引擎位于hadoop叢集的每一個資料節點當中，進而靈活地偵聽查詢請求。經過對查詢的分析之後，它會通過優化生成一套執行規劃，并在叢集中的計算節點之間負責并行處理的協調工作。通過上述努力，impala為使用者在haoop環境下帶來更低的sql查詢延遲，并以接近實時的狀态對大資料加以了解。

　　由于impala也能直接使用大家的原生hadoop基礎設施(例如hdfs、hbase以及hive中繼資料)，多方配合将構成一整統一平台，使用者可以在不涉及連接配接器複雜性、etl或者昂貴資料倉庫等機制的前提下實作全面資料分析。此外，impala可以從任何odbc/jdbc源處輕松擷取，是以能夠成為pentaho等商務智能工具包中的理想元件。

　　官方網站：http://www.cloudera.com/content/cloudera/en/home.html

　　serengeti

　　作為vmware将虛拟化帶入大資料處理領域的重要項目，serengeti允許大家将hadoop叢集以動态方式運作在共享式伺服器基礎設施當中。該項目利用apache hadoop虛拟化擴充——由vmware開發并貢獻——進而使hadoop成功步入虛拟化環境。

　　在serengeti的幫助下，我們可以在幾分鐘之内完成hadoop叢集環境部署，且不必涉及節點布局、ha狀态或者作業排程等令人頭痛的配置選項。進一步講，通過在每台主機内的多套虛拟機系統中部署hadoop，serengeti能夠将資料及計算功能加以劃分，并在維護本地資料存儲的同時改進計算規模。

　　官方網站：http://projectserengeti.org/

　　apache drill

　　apache drill的設計靈感源自谷歌dremel系統，旨在為大規模資料集帶來極低的互動分析延遲。drill支援多種資料來源，包括hbase、cassandra、mongodb以及傳統關系資料庫。hadoop雖然能為我們帶來可觀的資料吞吐能力，但分析其中的内容則要花費數分鐘甚至數小時時間。在drill的幫助下，大家将擁有理想的響應速度，進而實作互動式操作;這樣一來，快速分析并擷取有價值結論将變得輕松而愉快。

　　-- steven nu?ez

　　官方網站：http://incubator.apache.org/drill/

　　gephi

　　圖形理論已經全面延伸到應用程式的各個領域。我們可以利用鍊式分析調查相關貿易商與員工，進而揪出可疑的交易活動。一旦明晰系統内關鍵性連接配接點的狀況，我們就能以直覺方式審視複雜的it環境。在多位專家、企業聯合組織的開發活動中，gephi作為一款可視性發現工具，能夠支援多種圖形類型以及高達百萬級别的網絡節點規模。大家可以從維基、論壇以及各類教學網站上找到豐富的指導性資料，活躍的技術社群也為我們帶來層出不窮的插件選項——總而言之，大家在使用gephi的過程中很可能無需從零做起。

　　neo4j

　　作為一款具備靈活性且速度極為出衆的圖形資料庫，neo4j能夠以多種方式為使用者提供幫助，包括社交應用、推薦引擎、欺詐活動檢測、資源驗證以及資料中心網絡管理等等。neo4j目前在性能提升(查詢結果流處理速度)及叢集化/ha支援表現方面仍然處于穩步發展當中。

　　-- michael scarlett

　　官方網站：http://www.neo4j.org/

　　mongodb

　　在衆多nosql資料庫當中，最具人氣的也許要數mongdb。它采用二進制形式json文檔實作資料存儲，進而支援多種多樣的文檔形式、幫助開發人員獲得遠超過傳統關系資料庫的自由發揮空間——後者強制要求我們在衆多清單之間使用嚴格的平面開發模式。除此之外，mongodb還提供開發人員需要從關系資料庫中獲得的全部功能。

　　2013年對于mongodb發展史來說相當重要，今年我們迎來了兩款新版本外加一系列新功能，其中包括文本搜尋以及地理空間支援。新版本在性能改進方面也表現出色，例如采用并發式索引機制以及速度更快的javascript引擎(v8)。

　　官方網站：http://www.mongodb.com/

　　couchbase server

　　與其它nosql資料庫類似且與大部分關系資料庫不同，couchbase server并不要求使用者在插入資料之前首先建立什麼架構。couchbase server的特性之一在于其記憶體緩存庫。這項功能允許開發人員以無縫化方式由記憶體緩存環境向其它體系過渡，資料複制效果與而用性都令人滿意，而且不會給應用程式造成停機。其2.0版本還增加了文檔資料庫功能。2.1版本在此基礎上納入跨資料中心複制與更為強大的存儲性能。

　　官方網站：http://www.couchbase.com/why-nosql/nosql-database

　　paradigm4 scidb

　　scidb是一套分布式資料庫系統，利用并行處理對資料流進行實時分析。該系統的全部關注重點都放在大量科學資料集的支援效果上。它回避了關系資料庫中常見的行、列模式，轉而使用更适合有序資料集——例如時間序列及位置資料——的原生數列結構。與關系資料庫或者maoreduce不同，scidb提供一套統一解決方案，能夠在不涉及hadoop多層基礎設施與資料資訊内容的前提下實作跨叢集擴充。

　　官方網站：http://scidb.org/

原文釋出時間為：2013-10-03

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

2013 Bossie評選：最佳開源大資料工具

繼續閱讀

Windows下配置Apache的SSL服務

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

User Defined Hadoop DataType

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark