天天看點

實作一個微型資料庫

  一、資料以文本形式儲存

  将所要儲存的資料寫入文本檔案,這個文本檔案就是資料庫。

  為了友善讀取,資料必須分為記錄,每一條記錄的長度規定為等長。

  舉例:假定每條記錄的長度是800位元組,那麼第5條記錄的開始位置就在3200位元組。

  大多數的時候我們不知道某一條記錄在第幾個位置,隻知道主鍵的值。這時為了讀取資料,可以一條條比對記錄。但是這樣做的效率太低。實際應用中,資料庫往往采用b樹格式存儲資料。

  二、關于b樹

  要了解b樹先需要了解二叉查找樹

實作一個微型資料庫

  說二叉查找樹是一種查找效率非常高的資料結構,它有三個特點:

  (1)每個節點最多隻有兩個子樹。

  (2)左子樹都為小于父節點的值,右子樹都為大于父節點的值。

  (3)在n個節點中找到目标值,一般隻需要log(n)次比較。

  二叉查找樹的結構不适合資料庫,因為他的查找效率與層數有關。越處在下層的資料,就需要越多次的比較。極端的情況下,n個資料需要n次比較才能找到目标值。對于資料庫來說,每進入一層,就要從硬碟讀取一次資料,這非常緻命,因為硬碟的讀取時間遠遠大于資料處理時間,資料庫讀取硬碟的次數越少越好。

  b樹是對二叉查找樹的改進。它的設計思想是,将相關資料盡量集中在一起,以便一次讀取多個資料,減少硬碟操作次數。

實作一個微型資料庫

  b樹的特點:

  (1)一個節點可以容納多個值。

  (2)除非資料已經填滿,否則不會增加新的層,也就是說,b樹追求“層”越少越好。

  (3)子節點的值,與父節點中的值有嚴格的大小對應關系。一般來說,如果父節點有a個值,那麼就有a+1個子節點。比如上圖中,父節點有兩個值(7和16),就應對應三個子節點,第一個子節點都是小于7的值,最後一個子節點都是大于16的值,中間的子節點就是7和16之間的值。

三、索引

  資料庫以b樹格式存儲,隻解決了按照“主鍵”查找資料的問題。如果想查找其他字段,就需要建立檢索(index)。

  所謂索引,就是以某個字段為關鍵字的b樹檔案,假定一張“雇員表”,包含了員工号(主鍵)和姓名兩個字段,可以對姓名建立索引檔案,該檔案以b樹格式對姓名進行存儲,每個姓名後面是其在資料庫中的位置(即第幾條記錄)。查找姓名的時候,先從索引中找到對應的第幾條記錄,然後再從表格中讀取。這種索引查找方法,叫做“索引順序存取方法”,縮寫為isam。它已經有多種實作,隻要使用這些代碼庫,就能自己寫一個最簡單的資料庫。

  四、進階功能

  部署了最基本的資料存取(包括索引)以後,還可以實作一些進階功能。

  (1)sql語言是資料庫通用操作語言,是以需要一個sql解析器,将sql指令解析為對應的isam操作。

  (2)資料庫連接配接(join)是指資料庫的兩張表通過“外鍵”,建立連接配接關系。你需要對這種操作進行優化。

  (3)資料庫事務(transaction)是指批量進行一系列資料庫操作,隻要有一步不成功,整個操作都不成功。是以需要有一個“記錄檔”,以便失敗時對操作進行復原。

  (4)備份機制:儲存資料庫的副本。

  (5)遠端操作:使得使用者可以在不同的機器上,通過tcp/ip協定操作資料庫。

最新内容請見作者的github頁:http://qaseven.github.io/