天天看點

關系型資料庫與非關系型資料庫

 自1970年,埃德加·科德提出關系模型之後,關系資料庫便開始出現,經過了40多年的演化,如今的關系型資料庫具備了強大的存儲、維護、查詢資料的能力。但在關系資料庫日益強大的時候,人們發現,在這個資訊爆炸的“大資料”時代,關系型資料庫遇到了性能方面的瓶頸,面對一個表中上億條的資料,sql語句在大資料的查詢方面效率欠佳。我們應該知道,往往添加了越多的限制的技術,在一定程度上定會拖延其效率。

在1998年,carlo

strozzi提出nosql的概念,指的是他開發的一個沒有sql功能,輕量級的,開源的關系型資料庫。注意,這個定義跟我們現在對nosql的定義有很大的差別,它确确實實字如其名,指的就是“沒有sql”的資料庫。但是nosql的發展慢慢偏離了初衷,carlostrozzi也發覺,其實我們要的不是"nosql",而應該是"norelational",也就是我們現在常說的非關系型資料庫了。

 在關系型資料庫中,導緻性能欠佳的最主要因素是多表的關聯查詢,以及複雜的資料分析類型的複雜sql報表查詢。為了保證資料庫的acid特性,我們必須盡量按照其要求的範式進行設計,關系型資料庫中的表都是存儲一些格式化的資料結構,每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但資料庫會為每個元組配置設定所有的字段,這樣的結構可以便于表與表之間進行連接配接等操作,但從另一個角度來說它也是關系型資料庫性能瓶頸的一個因素。

       非關系型資料庫提出另一種理念,他以鍵值對存儲,且結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加一些自己的鍵值對,這樣就不會局限于固定的結構,可以減少一些時間和空間的開銷。使用這種方式,使用者可以根據需要去添加自己需要的字段,這樣,為了擷取使用者的不同資訊,不需要像關系型資料庫中,要對多表進行關聯查詢。僅需要根據id取出相應的value就可以完成查詢。但非關系型資料庫由于很少的限制,他也不能夠提供想sql所提供的where這種對于字段屬性值情況的查詢。并且難以展現設計的完整性。他隻适合存儲一些較為簡單的資料,對于需要進行較複雜查詢的資料,sql資料庫顯得更為合适。

       目前出現的nosql(not only

sql,非關系型資料庫)有不下于25種,除了dynamo、bigtable以外還有很多,比如amazon的simpledb、微軟公司的azuretable、facebook使用的cassandra、類bigtable的hypertable、hadoop的hbase、mongodb、couchdb、redis以及yahoo!的pnuts等等。這些nosql各有特色,是基于不同應用場景而開發的,而其中以mongodb和redis最為被大家追捧。

       以下是mongodb的一些情況:

mongodb是基于文檔的存儲的(而非表),是一個介于關系資料庫和非關系資料庫之間的産品,是非關系資料庫當中功能最豐富,最像關系資料庫的。他支援的資料結構非常松散,是類似json的bjson格式,是以可以存儲比較複雜的資料類型。模式自由(schema-free),意味着對于存儲在mongodb資料庫中的檔案,我們不需要知道它的任何結構定義。如果需要的話,你完全可以把不同結構的檔案存儲在同一個資料庫裡。mongo最大的特點是他支援的查詢語言非常強大,其文法有點類似于面向對象的查詢語言,幾乎可以實作類似關系資料庫單表查詢的絕大部分功能,而且還支援對資料建立索引。

       mongo主要解決的是海量資料的通路效率問題。因為mongo主要是支援海量資料存儲的,是以mongo還自帶了一個出色的分布式檔案系統gridfs,可以支援海量的資料存儲。由于mongo可以支援複雜的資料結構,而且帶有強大的資料查詢功能,是以非常受到歡迎。

補充:acid,是指在()中所具有的四個特性:原子性(atomicity)、一緻性(consistency)、隔離性(isolation,又稱獨立性)、持久性(durability)。

在資料庫系統中,一個事務是指由一系列資料庫操作組成的一個完整的邏輯過程。例如銀行轉帳,從原賬戶扣除金額,以及向目标賬戶添加金額,這兩個資料庫操作的總和構成一個完整的邏輯過程,不可拆分。這個過程被稱為一個事務,具有acid特性。

<dl></dl>

<dt>原子性</dt>

<dd>整個事務中的所有操作,要麼全部完成,要麼全部不完成,不可能停滞在中間某個環節。事務在執行過程中發生錯誤,會被復原(rollback)到事務開始前的狀态,就像這個事務從來沒有執行過一樣。</dd>

<dt>一緻性</dt>

<dd>在事務開始之前和事務結束以後,資料庫的完整性限制沒有被破壞。</dd>

<dt>隔離性</dt>

<dd>兩個事務的執行是互不幹擾的,一個事務不可能看到其他事務運作時,中間某一時刻的資料。</dd>

<dt>持久性</dt>

<dd>在事務完成以後,該事務所對資料庫所作的更改便持久的儲存在資料庫之中,并不會被復原。</dd>

由于一項操作通常會包含許多子操作,而這些子操作可能會因為硬體的損壞或其他因素産生問題,要正确實作acid并不容易。acid建議資料庫将所有需要更新以及修改的資料一次操作完畢,但實際上并不可行。

目前主要有兩種方式實作acid:第一種是write ahead logging,也就是式的方式。第二種是shadow

paging。

範式:

資料庫設計的三大範式

為了建立備援較小、結構合理的資料庫,設計資料庫時必須遵循一定的規則。在關系型資料庫中這種規則就稱為範式。範式是符合某一種設計要求的總結。要想設計一個結構合理的關系型資料庫,必須滿足一定的範式。

在實際開發中最為常見的設計範式有三個:

1.第一範式(確定每列保持原子性)

第一範式是最基本的範式。如果資料庫表中的所有字段值都是不可分解的原子值,就說明該資料庫表滿足了第一範式。

第一範式的合理遵循需要根據系統的實際需求來定。比如某些資料庫系統中需要用到“位址”這個屬性,本來直接将“位址”屬性設計成一個資料庫表的字段就行。但是如果系統經常會通路“位址”屬性中的“城市”部分,那麼就非要将“位址”這個屬性重新拆分為省份、城市、詳細位址等多個部分進行存儲,這樣在對位址中某一部分操作的時候将非常友善。這樣設計才算滿足了資料庫的第一範式,如下表所示。

關系型資料庫與非關系型資料庫

上表所示的使用者資訊遵循了第一範式的要求,這樣在對使用者使用城市進行分類的時候就非常友善,也提高了資料庫的性能。

2.第二範式(確定表中的每列都和主鍵相關)

第二範式在第一範式的基礎之上更進一層。第二範式需要確定資料庫表中的每一列都和主鍵相關,而不能隻與主鍵的某一部分相關(主要針對聯合主鍵而言)。也就是說在一個資料庫表中,一個表中隻能儲存一種資料,不可以把多種資料儲存在同一張資料庫表中。

比如要設計一個訂單資訊表,因為訂單中可能會有多種商品,是以要将訂單編号和商品編号作為資料庫表的聯合主鍵,如下表所示。

 訂單資訊表

關系型資料庫與非關系型資料庫

這樣就産生一個問題:這個表中是以訂單編号和商品編号作為聯合主鍵。這樣在該表中商品名稱、機關、商品價格等資訊不與該表的主鍵相關,而僅僅是與商品編号相關。是以在這裡違反了第二範式的設計原則。

而如果把這個訂單資訊表進行拆分,把商品資訊分離到另一個表中,把訂單項目表也分離到另一個表中,就非常完美了。如下所示。

關系型資料庫與非關系型資料庫

這樣設計,在很大程度上減小了資料庫的備援。如果要擷取訂單的商品資訊,使用商品編号到商品資訊表中查詢即可。

3.第三範式(確定每列都和主鍵列直接相關,而不是間接相關)

第三範式需要確定資料表中的每一列資料都和主鍵直接相關,而不能間接相關。

比如在設計一個訂單資料表的時候,可以将客戶編号作為一個外鍵和訂單表建立相應的關系。而不可以在訂單表中添加關于客戶其它資訊(比如姓名、所屬公司等)的字段。如下面這兩個表所示的設計就是一個滿足第三範式的資料庫表。

關系型資料庫與非關系型資料庫

這樣在查詢訂單資訊的時候,就可以使用客戶編号來引用客戶資訊表中的記錄,也不必在訂單資訊表中多次輸入客戶資訊的内容,減小了資料備援。