天天看點

8種Nosql資料庫系統對比

 雖然sql資料庫是非常有用的工具,但經曆了15年的一支獨秀之後壟斷即将被打破。這隻是時間問題:被迫使用關系資料庫,但最終發現不能适應需求的情況不勝枚舉。

  但是nosql資料庫之間的不同,遠超過兩 sql資料庫之間的差别。這意味着軟體架構師更應該在項目開始時就選擇好一個适合的 nosql資料庫。針對這種情況,這裡對cassandra、mongodb、couchdb、redis、 riak、membase、neo4j 和 hbase 進行了比較:

  (編注1:nosql:是一項全新的資料庫革命性運動,nosql的擁護者們提倡運用非關系型的資料存儲。現今的計算機體系結構在資料存儲方面要求具 備龐大的水準擴 展性,而nosql緻力于改變這一現狀。目前google的 bigtable 和amazon 的dynamo使用的就是nosql型資料庫。 參見nosql詞條。)

  1. couchdb

  所用語言: erlang

  特點:db一緻性,易于使用

  使用許可: apache

  協定: http/rest

  雙向資料複制,

  持續進行或臨時處理,

  處理時帶沖突檢查,

  是以,采用的是master-master複制(見編注2)

  mvcc – 寫操作不阻塞讀操作

  可儲存檔案之前的版本

  crash-only(可靠的)設計

  需要不時地進行資料壓縮

  視圖:嵌入式 映射/減少

  格式化視圖:清單顯示

  支援進行伺服器端文檔驗證

  支援認證

  根據變化實時更新

  支援附件處理

  是以, couchapps(獨立的 js應用程式)

  需要 jquery程式庫

  最佳應用場景:适用于資料變化較少,執行預定義查詢,進行資料統計的應用程式。适用于需要提供資料版本支援的應用程式。

  例如: crm、cms系統。 master-master複制對于多站點部署是非常有用的。

  (編注2:master-master複制:是一種資料庫同步方法,允許資料在一組計算機之間共享資料,并且可以通過小組中任意成員在組内進行資料更新。)

  2. redis

  所用語言:c/c++

  特點:運作異常快

  使用許可: bsd

  協定:類 telnet

  有硬碟存儲支援的記憶體資料庫,

  但自2.0版本以後可以将資料交換到硬碟(注意, 2.4以後版本不支援該特性!)

  master-slave複制(見編注3)

  雖然采用簡單資料或以鍵值索引的哈希表,但也支援複雜操作,例如 zrevrangebyscore。

  incr & co (适合計算極限值或統計資料)

  支援 sets(同時也支援 union/diff/inter)

  支援清單(同時也支援隊列;阻塞式 pop操作)

  支援哈希表(帶有多個域的對象)

  支援排序 sets(高得分表,适用于範圍查詢)

  redis支援事務

  支援将資料設定成過期資料(類似快速緩沖區設計)

  pub/sub允許使用者實作消息機制

  最佳應用場景:适用于資料變化快且資料庫大小可遇見(适合記憶體容量)的應用程式。

  例如:股票價格、資料分析、實時資料搜集、實時通訊。

  (編注3:master-slave複制:如果同一時刻隻有一台伺服器處理所有的複制請求,這被稱為 master-slave複制,通常應用在需要提供高可用性的伺服器叢集。)

 3. mongodb

  所用語言:c++

  特點:保留了sql一些友好的特性(查詢,索引)。

  使用許可: agpl(發起者: apache)

  協定: custom, binary( bson)

  master/slave複制(支援自動錯誤恢複,使用 sets 複制)

  内建分片機制

  支援 javascript表達式查詢

  可在伺服器端執行任意的 javascript函數

  update-in-place支援比couchdb更好

  在資料存儲時采用記憶體到檔案映射

  對性能的關注超過對功能的要求

  建議最好打開日志功能(參數 –journal)

  在32位作業系統上,資料庫大小限制在約2.5gb

  空資料庫大約占 192mb

  采用 gridfs存儲大資料或中繼資料(不是真正的檔案系統)

  最佳應用場景:适用于需要動态查詢支援;需要使用索引而不是 map/reduce功能;需要對大資料庫有性能要求;需要使用 couchdb但因為資料改變太頻繁而占滿記憶體的應用程式。

  例如:你本打算采用 mysql或 postgresql,但因為它們本身自帶的預定義欄讓你望而卻步。

  4. riak

  所用語言:erlang和c,以及一些javascript

  特點:具備容錯能力

  協定: http/rest或者 custom binary

  可調節的分發及複制(n, r, w)

  用 javascript or erlang在操作前或操作後進行驗證和安全支援。

  使用javascript或erlang進行 map/reduce

  連接配接及連接配接周遊:可作為圖形資料庫使用

  索引:輸入中繼資料進行搜尋(1.0版本即将支援)

  大資料對象支援( luwak)

  提供“開源”和“企業”兩個版本

  全文本搜尋,索引,通過 riak搜尋伺服器查詢( beta版)

  支援masterless多站點複制及商業許可的 snmp監控

  最佳應用場景:适用于想使用類似 cassandra(類似dynamo)資料庫但無法處理 bloat及複雜性的情況。适用于你打算做多站點複制,但又需要對單個站點的擴充性,可用性及出錯處理有要求的情況。

  例如:銷售資料搜集,工廠控制系統;對當機時間有嚴格要求;可以作為易于更新的 web伺服器使用。

  5. membase

  所用語言: erlang和c

  特點:相容 memcache,但同時兼具持久化和支援叢集

  使用許可: apache 2.0

  協定:分布式緩存及擴充

  非常快速(200k+/秒),通過鍵值索引資料

  可持久化存儲到硬碟

  所有節點都是唯一的( master-master複制)

  在記憶體中同樣支援類似分布式緩存的緩存單元

  寫資料時通過去除重複資料來減少 io

  提供非常好的叢集管理 web界面

  更新軟體時軟無需停止資料庫服務

  支援連接配接池和多路複用的連接配接代理

  最佳應用場景:适用于需要低延遲資料通路,高并發支援以及高可用性的應用程式

  例如:低延遲資料通路比如以廣告為目标的應用,高并發的 web 應用比如網絡遊戲(例如 zynga)

  6. neo4j

  所用語言: java

  特點:基于關系的圖形資料庫

  使用許可: gpl,其中一些特性使用 agpl/商業許可

  協定: http/rest(或嵌入在 java中)

  可獨立使用或嵌入到 java應用程式

  圖形的節點和邊都可以帶有中繼資料

  很好的自帶web管理功能

  使用多種算法支援路徑搜尋

  使用鍵值和關系進行索引

  為讀操作進行優化

  支援事務(用 java api)

  使用 gremlin圖形周遊語言

  支援 groovy腳本

  支援線上備份,進階監控及高可靠性支援使用 agpl/商業許可

  最佳應用場景:适用于圖形一類資料。這是 neo4j與其他nosql資料庫的最顯著差別

  例如:社會關系,公共交通網絡,地圖及網絡拓譜

 7. cassandra

  特點:對大型表格和 dynamo支援得最好

  協定: custom, binary (節約型)

  支援以某個範圍的鍵值通過列查詢

  類似大表格的功能:列,某個特性的列集合

  寫操作比讀操作更快

  基于 apache分布式平台盡可能地 map/reduce

  我承認對 cassandra有偏見,一部分是因為它本身的臃腫和複雜性,也因為 java的問題(配置,出現異常,等等)

  最佳應用場景:當使用寫操作多過讀操作(記錄日志)如果每個系統組建都必須用 java編寫(沒有人因為選用 apache的軟體被解雇)

  例如:銀行業,金融業(雖然對于金融交易不是必須的,但這些産業對資料庫的要求會比它們更大)寫比讀更快,是以一個自然的特性就是實時資料分析

  8. hbase

  (配合 ghshephard使用)

  特點:支援數十億行x上百萬列

  協定:http/rest (支援 thrift,見編注4)

  在 bigtable之後模組化

  采用分布式架構 map/reduce

  對實時查詢進行優化

  高性能 thrift網關

  通過在server端掃描及過濾實作對查詢操作預判

  支援 xml, protobuf, 和binary的http

  cascading, hive, and pig source and sink modules

  基于 jruby( jirb)的shell

  對配置改變和較小的更新都會重新復原

  不會出現單點故障

  堪比mysql的随機通路性能

  最佳應用場景:适用于偏好bigtable:)并且需要對大資料進行随機、實時通路的場合。

  例如: facebook消息資料庫(更多通用的用例即将出現)

  編注4:thrift 是一種接口定義語言,為多種其他語言提供定義和建立服務,由facebook開發并開源。

  當然,所有的系統都不隻具有上面列出的這些特性。這裡我僅僅根據自己的觀點列出一些我認為的重要特性。與此同時,技術進步是飛速的,是以上述的内容肯定需要不斷更新。我會盡我所能地更新這個清單。