天天看點

推薦開源軟體 —— Tachyon 分布式存儲系統

alluxio 原名 tachyon。

alluxio 是一個高容錯的分布式檔案系統,允許檔案以記憶體的速度在叢集架構中進行可靠的共享,類似spark和 mapreduce。通過利用lineage資訊,積極地使用記憶體,alluxio的吞吐量要比hdfs高300多倍。alluxio都是在記憶體中處理緩存檔案,并且讓不同的 jobs/queries以及架構都能記憶體的速度來通路緩存檔案。

特性:

類 java 的檔案 api

相容性:實作 hadoop 檔案系統接口

可插入式的底層檔案系統

内建 raw 原生表的支援

基于 web 的 ui

提供指令行接口

alluxio 架構:

推薦開源軟體 —— Tachyon 分布式存儲系統

https://yqfile.alicdn.com/b5b264f68bef39f3995683ccdb8a28f1a3a6a0e8.png

" >

推薦開源軟體 —— Tachyon 分布式存儲系統

與 hdfs 的比較:

推薦開源軟體 —— Tachyon 分布式存儲系統

hadoop足夠快嗎?美國加州大學伯克利分校的amplab基于hadoop的核心元件開發出一個更快的版本alluxio。amplab從底層重建了hadoop平台,“沒有最快,隻有更快”。

amplab在大資料領域最知名的産品是spark,它是一個記憶體中并行處理的架構,spark的創造者聲稱:使用shark運作并行處理job速度要比mapreduce快100倍。又因為spark是在記憶體運作,是以shark可與druid或者sap's hana系統一較高下。spark也為clearstory下一代分析和可視化服務提供處理引擎。如果你喜歡用hive作為hadoop的資料倉庫,那麼你一定會喜歡shark,因為它代表了“hive on spark”。

amplab的最新目标就是hadoop分布式檔案系統(hdfs),不過hdfs在可用性和速度方面一直受人诟病,是以amplab建立了alluxio( 在high scalability上非常奪目,引起了derrick harris的注意)。

當然,amplab并不是第一個對hdfs提出質疑的組織,同時也有很多商業版本可供選擇,像quantcast就自己開發了開源檔案系統,聲稱其在運作大規模檔案系統時速度更快、更高效。

誠然,amplab所做的工作就是打破現有商業軟體的瓶頸限制。如果碰巧破壞了現狀,那麼就順其自然吧!不過,對于使用者來說,amplab隻是為那些尋找合适工具的人員提供了一種新的選擇,amplab的合作夥伴和贊助商包括谷歌,facebook,微軟和亞馬遜網絡服務,它們當然非常樂意看到這些新技術,如果很有必要的話。

amplab的其他項目包括piql,類似于一種基于鍵/值存儲的sql查詢語言;mlbase,基于分布式系統的機器學習系統;akaros,一個多核和大型smp系統的作業系統;sparrow,一個低延遲計算叢集排程系統。