天天看點

Sector/Sphere: 一個類hadoop的系統

轉自http://hi.baidu.com/ltguo/blog/item/a656a03ece6d6df1828b1396.html

http://sector.sourceforge.net/

這是2006年啟動的一個開源項目(C++),包括Sector和 Sphere兩個子系統,分别對應到Hadoop的HDFS和MapReduce兩個子系統,對外的接口也比較類似。不過,該系統在設計之初就考慮了 跨多個資料中心的資料處理需求,是以在slave/master之間的安全以及client和系統之間的資料傳輸安全方面都提供了安全機制。 這一點是hadoop沒有考慮的。

粗略對比了Sphere和MapReduce之間的差别,可能不全面:

(1)slave和master之間提供資料保密機制(可選擇不加密資料),hadoop目前沒有;

(2)在使用系統時,client直接将資料傳輸到slave節點。 hadoop的機制與其類似;

(3)Sector中資料傳輸采用UDT協定,這是一個增加了流控的UDP協定,傳輸效率比目前hadoop采用的TCP高;目前Hadoop MR中采用HTTP,效率更低;

(4)在Sphere中UDF(類似于MapTask)的輸出結果是通過push的方式發送出去的,而Hadoop采用pull的方式。這種方式孰優孰劣比較難斷定,因為push方式有可靠性的問題;

(5)在Sphere中不采用按照blocksize和單獨的檔案來确定任務數。

(6)在Sphere中,Map任務有錯誤恢複機制,但Reduce不支援錯誤恢複,即如果Reduce Task 失敗了,整個作業就失敗了。

從Sector/Sphere網站上釋出的terasort結果來看,其性能比hadoop高出不少(http://sector.sourceforge.net/benchmark.html ):

64節點(主節點:Dell 1950, dual dual-core Xeon 3.0GHz, 16GB RAM   / 子節點:Dell 1435s, single dual core AMD Opteron 2.0GHz, 4GB RAM, and 1TB single disk):

Sector/Sphere為1361妙,Hadoop(1副本)為 2617秒,而在我們的labs上測試的結果是...... 秒。

he performance value listed in this page was achieved using the Open Cloud Testbed. Currently the testbed consists of 4 racks. Each rack has 32 nodes, including 1 NFS server, 1 head node, and 30 compute/slave nodes. The head node is a Dell 1950, dual dual-core Xeon 3.0GHz, 16GB RAM. The compute nodes are Dell 1435s, single dual core AMD Opteron 2.0GHz, 4GB RAM, and 1TB single disk. The 4 racks are located in JHU (Baltimore), StarLight (Chicago), UIC (Chicago), and Calit2(San Diego). The inter-rack bandwidth is 10GE, supported by CiscoWave deployed over National Lambda Rail.

Sphere Hadoop (3 replicas) Hadoop (1 replica)
UIC 1265 2889 2252
UIC + StarLight 1361 2896 2617
UIC + StarLight + Calit2 1430 4341 3069
UIC + StarLight + Calit2 + JHU 1526 6675 3702

繼續閱讀