天天看點

雲計算中的存儲雲計算中的存儲

原貼:http://www.dbanotes.net/arch/cloud_storage.html

雲計算中的存儲

作者: Fenng | 可以轉載, 轉載時務必以超連結形式标明文章原始出處和作者資訊及版權聲明

網址: http://www.dbanotes.net/arch/cloud_storage.html

這是去年發在《程式員》雜志的一篇文章。當時寫得比較急,現在看起來,有些觀點有些武斷。僅供參考。      

引言, "The one that is without any tradeoff is to have the logical storage master up in the cloud" by Bill Gates.

2008 年的 IT 界,雲計算是個熱詞。很多企業都在宣稱自己提供雲計算服務,很多人也都在讨論雲計算(一些明顯是湊熱鬧的,比如所謂的"雲安全"),從業界公認的幾種雲計 算的服務能力看,都繞不開存儲這個基礎支撐元件,dSaaS(data-Storage-as-a-Service) 更是把存儲提到了首要的位置。而從我們目前能得到的資訊來看,在存儲層已經解決很好的,恐怕也隻有 Google 和 Amazon 兩家,至于其他公司可能都還在路上,即使是微軟,盡管也有自己的 Dryad ,但是實際上,仍然處于理論階段,産品化的路還有點距離。

雲計算中的存儲雲計算中的存儲

上面表格中的舉例僅僅是為了舉例,如果某家已經 "雲計算了" 的公司大名不在上面,并非該公司"雲"的不夠徹底,應該隻是筆者眼光差的原因而已。

越來越迫切的資訊存儲需求

根據 EMC 公司贊助 IDC 進行的研究計劃 "Digital Universe" 的分析報告,在整個 2007 年,我們這個世界生成、占用的數字資訊及複制總量大約是 281 Exabytes (1 Exabytes=1024 Petabytes ,1 Petabytes = 1024 TB 這裡換算都按照二進制的換算),這個資料平攤到地球上的所有人,大約是每個人 45 GB的資料;截至到筆者寫稿的時候,2008年到現在整個世界已經生成了大約 374 EB 的資料(可以到 "Digital Universe" 頁面檢視最新的資料,也可以下載下傳一個評估工具,看看自己産生的資料是大約如何);到 2011 年,每年産生的數字資訊大約是 1800 EB,10倍于2006 年産生的資訊量。做為對比,Google 每天處理的資料大約是 20 PB 的樣子,Google 的目标是要組織所有的資訊,看來并非易事。

其他可參考資料:據美國國家檔案館從業人員估計,布什政府電子檔案存儲量大約為1億GB,這一數字約為前總統克林頓兩屆政府檔案總量的50倍,是國會圖書館2000萬冊編目圖書内容總量的5倍。

每年激增如此龐大的資訊量,加上已有的曆史資料資訊,對整個業界的資料存儲、處理帶來了很大的機遇與挑戰。通過該研究能看出,在可用存儲之間與資訊 生成總量之間不是嚴格比對的,一方面多媒體領域資訊增長過快,一方面因為不合理的存儲配置設定、占用情形比比皆是。例如研究表明一封大約 1M 的郵件發出後,經過不同伺服器的存儲、備份、歸檔等最後總體占用空間竟然達到驚人的 50M 之多。正如雲計算的初衷是為了充分發揮計算機閑置資源,提高總體使用率以便達到經濟效益,雲計算中的存儲方面也應該能有效提高存儲使用率而進一步創造價 值,盲目的複制、堆積資料是沒有出路的。工業界提倡節能減排,其實 IT 界應該提倡一下節約存儲了。

什麼是雲存儲 ?

其實,什麼是雲計算都很難有一個權威的定義,筆者在這裡更願意把"雲計算中涉及的存儲"簡稱為雲存儲(Cloud Storage)。雲存儲本身離不開雲計算,更多的時候雲存儲是做為雲計算的一個支撐元件。

雲存儲不是簡單的線上存儲或是網絡硬碟,線上存儲服務隻是雲存儲能夠提供的衆多服務中的一種而已。

雲存儲的特點

雲存儲至少應該能夠具備如下特點:

  • 高可靠性
  • 談到存儲,可靠性還是要排到第一位的。沒有人喜歡買三天兩頭壞掉的硬碟,代表高科技形象的雲存儲可靠性也要加強。
  • 高可用性
  • 如果雲存儲服務不是針對線上使用者的,那麼沒有什麼實際意義,如果針對線上使用者,不具備足夠高的可用性也是沒有意義的。Amazon 的 S3 服務給足夠多的 Web 2.0 企業解放了在硬體存儲上的壓力,但是偶然的一次當機會影響所有的 Web 2.0 使用者;
  • 低成本
  • 雲存儲本質上還是規模化經濟。如果成本不能有效的控制,那麼雲存儲對廠家、對使用者來說是沒有意義的;
  • 高擴充性
  • 雲存儲元件應該具有足夠高的擴充性,應該能夠通過線上擴充存儲單元進行有效的平滑線性擴充;
  • 自動容錯能力
  • 因為低成本的,存儲元件的損耗率應該很高,雲存儲廠商應該能在軟體層做到自動容錯而不是依賴硬體本身的容錯;
  • 易管理性
  • 建構雲存儲系統,可管理性應該在設計之初就要考慮到,如果管理太複雜,很難做到低成本,穩定性、可靠性也會受到挑戰。
  • 去中心化
  • 對中繼資料的管理不應該通過少數或者單一的管理節點來操作或者存儲。

雲存儲的關鍵技術與服務形式

要建設成功的雲存儲系統,高擴充性、高可靠性的分布式檔案系統是一個關鍵因素。而硬體問題反而是次要的。

雲計算中的存儲雲計算中的存儲

雲存儲的服務形式見上表。

未完待續...

這篇 【 雲計算中的存儲 】來自 dbanotes.net |

雲計算中的存儲雲計算中的存儲

del.icio.us 收藏 By Fenng on January 21, 2009 10:13 PM | Permalink | TrackBacks (0) | Arch | Edit

Generator | Trampoline | 外貿英才網 | Vinyl fence

Vertical Packaging Machine | Digital Blood Pressure Monitor

@import url(http://www.google.com/cse/api/branding.css); 自定義搜尋

本文相關評論|Comments(6)

open 的評論:

1 Petabytes = 1024 TB吧。

January 21, 2009 11:29 PM 海風 的評論:

1 Petabytes = 1024 GB ?

TB哪裡去了呢

January 22, 2009 8:38 AM Fenng

雲計算中的存儲雲計算中的存儲

的評論:

錯誤。修正了。

多謝以上兩位!

January 22, 2009 8:50 AM harry 的評論:

有點空洞

January 22, 2009 10:05 AM xLight 的評論:

雲計算中産生的大量臨時檔案真的挺要命的,

不知道各位有什麼好的建議啊

這個存儲系統用什麼來做比較合理?

January 22, 2009 12:00 PM 柳華芳 的評論:

好文章 雲計算怎麼處理垃圾是我關心的

January 22, 2009 3:58 PM

添加評論

<script type="text/javascript"> <!-- writeCommenterGreeting(commenter_name, 1592, 1, commenter_id, commenter_url); //--> </script> 直接 匿名評論 或者 登入 評論這篇文章(OpenID、TypeKey...)

上一篇: Text Type
下一篇: Application Type

繼續閱讀