天天看點

資料庫表設計的三範式

資料庫範式1NF 2NF 3NF BCNF(執行個體)

設計範式(範式,資料庫設計範式,資料庫的設計範式)是符合某一種級别的關系模式的集合。構造資料庫必須遵循一定的規則。在關系資料庫中,這種規則就是範

式。關系資料庫中的關系必須滿足一定的要求,即滿足不同的範式。目前關系資料庫有六種範式:第一範式(1NF)、第二範式(2NF)、第三範式

(3NF)、第四範式(4NF)、第五範式(5NF)和第六範式(6NF)。滿足最低要求的範式是第一範式(1NF)。在第一範式的基礎上進一步滿足更多

要求的稱為第二範式(2NF),其餘範式以次類推。一般說來,資料庫隻需滿足第三範式(3NF)就行了。下面我們舉例介紹第一範式(1NF)、第二範式

(2NF)和第三範式(3NF)。

在建立一個資料庫的過程中,範化是将其轉化為一些表的過程,這種方法可以使從資料庫得到的結果更加明确。這樣可能使資料庫産生重複資料,進而導緻建立多餘

的表。範化是在識别資料庫中的資料元素、關系,以及定義所需的表和各表中的項目這些初始工作之後的一個細化的過程。

下面是範化的一個例子 Customer Item purchased Purchase price Thomas Shirt $40 Maria

Tennis shoes $35 Evelyn Shirt $40 Pajaro Trousers $25

如果上面這個表用于儲存物品

的價格,而你想要删除其中的一個顧客,這時你就必須同時删除一個價格。範化就是要解決這個問題,你可以将這個表化為兩個表,一個用于存儲每個顧客和他所買

物品的資訊,另一個用于存儲每件産品和其價格的資訊,這樣對其中一個表做添加或删除操作就不會影響另一個表。

關系資料庫的幾種設計範式介紹

1 第一範式(1NF)

    在任何一個關系資料庫中,第一範式(1NF)是對關系模式的基本要求,不滿足第一範式(1NF)的資料庫就不是關系資料庫。

所謂第一範式(1NF)是指資料庫表的每一列都是不可分割的基本資料項,同一列中不能有多個值,即實體中的某個屬性不能有多個值或者不能有重複的屬性。如

果出現重複的屬性,就可能需要定義一個新的實體,新的實體由重複的屬性構成,新實體與原實體之間為一對多關系。在第一範式(1NF)中表的每一行隻包含一

個執行個體的資訊。例如,對于圖3-2

中的員工資訊表,不能将員工資訊都放在一列中顯示,也不能将其中的兩列或多列在一列中顯示;員工資訊表的每一行隻表示一個員工的資訊,一個員工的資訊在表

中隻出現一次。簡而言之,第一範式就是無重複的列。

2 第二範式(2NF)

第二範式(2NF)是在第一範式(1NF)的基礎上建立起來的,即滿足第二範式(2NF)必須先滿足第一範式(1NF)。第二範式(2NF)要求資料庫表

中的每個執行個體或行必須可以被惟一地區分。為實作區分通常需要為表加上一個列,以存儲各個執行個體的惟一辨別。如圖3-2

員工資訊表中加上了員工編号(emp_id)列,因為每個員工的員工編号是惟一的,是以每個員工可以被惟一區分。這個惟一屬性列被稱為主關鍵字或主鍵、主

碼。

第二範式(2NF)要求實體的屬性完全依賴于主關鍵字。所謂完全依賴是指不能存在僅依賴主關鍵字一部分的屬性,如果存在,那麼這個屬性和主

關鍵字的這一部分應該分離出來形成一個新的實體,新實體與原實體之間是一對多的關系。為實作區分通常需要為表加上一個列,以存儲各個執行個體的惟一辨別。簡而

言之,第二範式就是非主屬性非部分依賴于主關鍵字。

3 第三範式(3NF)

滿足第三範式(3NF)必須先滿足第二範式(2NF)。簡而言之,第三範式(3NF)要求一個資料庫表中不包含已在其它表中已包含的非主關鍵字資訊。例

如,存在一個部門資訊表,其中每個部門有部門編号(dept_id)、部門名稱、部門簡介等資訊。那麼在圖3-2的員工資訊表中列出部門編号後就不能再将

部門名稱、部門簡介等與部門有關的資訊再加入員工資訊表中。如果不存在部門資訊表,則根據第三範式(3NF)也應該建構它,否則就會有大量的資料備援。簡

而言之,第三範式就是屬性不依賴于其它非主屬性。

資料庫設計三大範式應用執行個體剖析

資料庫的設計範式是資料庫設計所需要滿足的規範,滿足這些規範的資料庫是簡潔的、結構明晰的,同時,不會發生插入(insert)、删除(delete)

和更新(update)操作異常。反之則是亂七八糟,不僅給資料庫的程式設計人員制造麻煩,而且面目可憎,可能存儲了大量不需要的備援資訊。

    設計範式是不是很難懂呢?非也,大學教材上給我們一堆數學公式我們當然看不懂,也記不住。是以我們很多人就根本不按照範式來設計資料庫。

實質上,設計範式用很形象、很簡潔的話語就能說清楚,道明白。本文将對範式進行通俗地說明,并以筆者曾經設計的一個簡單論壇的資料庫為例來講解怎樣将這些範式應用于實際工程。

範式說明

    第一範式(1NF):資料庫表中的字段都是單一屬性的,不可再分。這個單一屬性由基本類型構成,包括整型、實數、字元型、邏輯型、日期型等。

    例如,如下的資料庫表是符合第一範式的:

    字段1 字段2 字段3 字段4

    而這樣的資料庫表是不符合第一範式的:

    字段3.1 字段3.2 

    很顯然,在目前的任何關系資料庫管理系統(DBMS)中,傻瓜也不可能做出不符合第一範式的資料庫,因為這些DBMS不允許你把資料庫表的一列再分成二列或多列。是以,你想在現有的DBMS中設計出不符合第一範式的資料庫都是不可能的。 

    第二範式(2NF):資料庫表中不存在非關鍵字段對任一候選關鍵字段的部分函數依賴(部分函數依賴指的是存在組合關鍵字中的某些字段決定非關鍵字段的情況),也即所有非關鍵字段都完全依賴于任意一組候選關鍵字。

    假定選課關系表為SelectCourse(學号, 姓名, 年齡, 課程名稱, 成績, 學分),關鍵字為組合關鍵字(學号, 課程名稱),因為存在如下決定關系:

    (學号, 課程名稱) → (姓名, 年齡, 成績, 學分) 

    這個資料庫表不滿足第二範式,因為存在如下決定關系:

    (課程名稱) → (學分)

    (學号) → (姓名, 年齡)

    即存在組合關鍵字中的字段決定非關鍵字的情況。 

    由于不符合2NF,這個選課關系表會存在如下問題:

    (1) 資料備援:

    同一門課程由n個學生選修,"學分"就重複n-1次;同一個學生選修了m門課程,姓名和年齡就重複了m-1次。

    (2) 更新異常:

    若調整了某門課程的學分,資料表中所有行的"學分"值都要更新,否則會出現同一門課程學分不同的情況。

    (3) 插入異常:

    假設要開設一門新的課程,暫時還沒有人選修。這樣,由于還沒有"學号"關鍵字,課程名稱和學分也無法記錄入資料庫。

    (4) 删除異常:

    假設一批學生已經完成課程的選修,這些選修記錄就應該從資料庫表中删除。但是,與此同時,課程名稱和學分資訊也被删除了。很顯然,這也會導緻插入異常。

    把選課關系表SelectCourse改為如下三個表:

    學生:Student(學号, 姓名, 年齡);

    課程:Course(課程名稱, 學分);

    選課關系:SelectCourse(學号, 課程名稱, 成績)。

    這樣的資料庫表是符合第二範式的, 消除了資料備援、更新異常、插入異常和删除異常。

    另外,所有單關鍵字的資料庫表都符合第二範式,因為不可能存在組合關鍵字。

第三範式(3NF):在第二範式的基礎上,資料表中如果不存在非關鍵字段對任一候選關鍵字段的傳遞函數依賴則符合第三範式。所謂傳遞函數依賴,指的是如果

存在"A → B → C"的決定關系,則C傳遞函數依賴于A。是以,滿足第三範式的資料庫表應該不存在如下依賴關系:

    關鍵字段 → 非關鍵字段x → 非關鍵字段y

    假定學生關系表為Student(學号, 姓名, 年齡, 所在學院, 學院地點, 學院電話),關鍵字為單一關鍵字"學号",因為存在如下決定關系:

    (學号) → (姓名, 年齡, 所在學院, 學院地點, 學院電話)

    這個資料庫是符合2NF的,但是不符合3NF,因為存在如下決定關系:

    (學号) → (所在學院) → (學院地點, 學院電話)

    即存在非關鍵字段"學院地點"、"學院電話"對關鍵字段"學号"的傳遞函數依賴。

    它也會存在資料備援、更新異常、插入異常和删除異常的情況,讀者可自行分析得知。

    把學生關系表分為如下兩個表:

    學生:(學号, 姓名, 年齡, 所在學院);

    學院:(學院, 地點, 電話)。 

    這樣的資料庫表是符合第三範式的,消除了資料備援、更新異常、插入異常和删除異常。

鮑依斯-科得範式(BCNF):在第三範式的基礎上,資料庫表中如果不存在任何字段對任一候選關鍵字段的傳遞函數依賴則符合第三範式。

    假設倉庫管理關系表為StorehouseManage(倉庫ID, 存儲物品ID, 管理者ID, 數量),且有一個管理者隻在一個倉庫工作;一個倉庫可以存儲多種物品。這個資料庫表中存在如下決定關系:

    (倉庫ID, 存儲物品ID) →(管理者ID, 數量)

    (管理者ID, 存儲物品ID) → (倉庫ID, 數量)

    是以,(倉庫ID, 存儲物品ID)和(管理者ID, 存儲物品ID)都是StorehouseManage的候選關鍵字,表中的唯一非關鍵字段為數量,它是符合第三範式的。但是,由于存在如下決定關系:

    (倉庫ID) → (管理者ID)

    (管理者ID) → (倉庫ID)

    即存在關鍵字段決定關鍵字段的情況,是以其不符合BCNF範式。它會出現如下異常情況:

    (1) 删除異常:

    當倉庫被清空後,所有"存儲物品ID"和"數量"資訊被删除的同時,"倉庫ID"和"管理者ID"資訊也被删除了。

    (2) 插入異常:

    當倉庫沒有存儲任何物品時,無法給倉庫配置設定管理者。

    (3) 更新異常:

    如果倉庫換了管理者,則表中所有行的管理者ID都要修改。

    把倉庫管理關系表分解為二個關系表:

    倉庫管理:StorehouseManage(倉庫ID, 管理者ID);

    倉庫:Storehouse(倉庫ID, 存儲物品ID, 數量)。

    這樣的資料庫表是符合BCNF範式的,消除了删除異常、插入異常和更新異常。

範式應用

    我們來逐漸搞定一個論壇的資料庫,有如下資訊:

    (1) 使用者:使用者名,email,首頁,電話,聯系位址

    (2) 文章:發帖标題,發帖内容,回複标題,回複内容

    第一次我們将資料庫設計為僅僅存在表:

    使用者名 email 首頁 電話 聯系位址 發帖标題 發帖内容 回複标題 回複内容

    這個資料庫表符合第一範式,但是沒有任何一組候選關鍵字能決定資料庫表的整行,唯一的關鍵字段使用者名也不能完全決定整個元組。我們需要增加"發帖ID"、"回複ID"字段,即将表修改為:

    使用者名 email 首頁 電話 聯系位址 發帖ID 發帖标題 發帖内容 回複ID 回複标題 回複内容 

    這樣資料表中的關鍵字(使用者名,發帖ID,回複ID)能決定整行:

    (使用者名,發帖ID,回複ID) → (email,首頁,電話,聯系位址,發帖标題,發帖内容,回複标題,回複内容)

    但是,這樣的設計不符合第二範式,因為存在如下決定關系:

    (使用者名) → (email,首頁,電話,聯系位址)

    (發帖ID) → (發帖标題,發帖内容)

    (回複ID) → (回複标題,回複内容)

    即非關鍵字段部分函數依賴于候選關鍵字段,很明顯,這個設計會導緻大量的資料備援和操作異常。

我們将資料庫表分解為(帶下劃線的為關鍵字):

(1) 使用者資訊:使用者名,email,首頁,電話,聯系位址

(2) 文章資訊:發帖ID,标題,内容

(3) 回複資訊:回複ID,标題,内容

(4) 發貼:使用者名,發帖ID

(5) 回複:發帖ID,回複ID

    這樣的設計是滿足第1、2、3範式和BCNF範式要求的,但是這樣的設計是不是最好的呢?

不一定。

觀察可知,第4項"發帖"中的"使用者名"和"發帖ID"之間是1:N的關系,是以我們可以把"發帖"合并到第2項的"文章資訊"中;第5項"回複"中的"

發帖ID"和"回複ID"之間也是1:N的關系,是以我們可以把"回複"合并到第3項的"回複資訊"中。這樣可以一定量地減少資料備援,新的設計為:

(2) 文章資訊:使用者名,發帖ID,标題,内容

(3) 回複資訊:發帖ID,回複ID,标題,内容

    資料庫表1顯然滿足所有範式的要求;

    資料庫表2中存在非關鍵字“标題”、“内容”對關鍵字段“發帖ID”的部分函數依賴,即不滿足第二範式的要求,但是這一設計并不會導緻資料備援和操作異常;

    資料庫表3中也存在非關鍵字段"标題"、"内容"對關鍵字段"回複ID"的部分函數依賴,也不滿足第二範式的要求,但是與資料庫表2相似,這一設計也不會導緻資料備援和操作異常。

    由此可以看出,并不一定要強行滿足範式的要求,對于1:N關系,當1的一邊合并到N的那邊後,N的那邊就不再滿足第二範式了,但是這種設計反而比較好!

    對于M:N的關系,不能将M一邊或N一邊合并到另一邊去,這樣會導緻不符合範式要求,同時導緻操作異常和資料備援。

    對于1:1的關系,我們可以将左邊的1或者右邊的1合并到另一邊去,設計導緻不符合範式要求,但是并不會導緻操作異常和資料備援。

結論

    滿足範式要求的資料庫設計是結構清晰的,同時可避免資料備援和操作異常。這并意味着不符合範式要求的設計一定是錯誤的,在資料庫表中存在1:1或1:N關系這種較特殊的情況下,合并導緻的不符合範式要求反而是合理的。

    在我們設計資料庫的時候,一定要時刻考慮範式的要求。