【底層原理】資料庫的最簡單實作

所有應用軟體之中，資料庫可能是最複雜的。MySQL的手冊有3000多頁，PostgreSQL的手冊有2000多頁，Oracle的手冊更是比它們相加還要厚。

但是，自己寫一個最簡單的資料庫，做起來并不難。Reddit上面有一個文章，隻用了幾百個字，就把原理講清楚了。下面是我根據這個文章整理的内容。

資料以文本形式儲存

第一步，就是将所要儲存的資料，寫入文本檔案。這個文本檔案就是你的資料庫。

為了友善讀取，資料必須分成記錄，每一條記錄的長度規定為等長。比如，假定每條記錄的長度是800位元組，那麼第5條記錄的開始位置就在3200位元組。

大多數時候，我們不知道某一條記錄在第幾個位置，隻知道主鍵（primary key）的值。這時為了讀取資料，可以一條條比對記錄。但是這樣做效率太低，實際應用中，資料庫往往采用B樹（B-tree）格式儲存資料。

什麼是B樹

要了解B樹，必須從二叉查找樹（Binary search tree）講起。

二叉查找樹是一種查找效率非常高的資料結構，它有三個特點。

（1）每個節點最多隻有兩個子樹。

（2）左子樹都為小于父節點的值，右子樹都為大于父節點的值。

（3）在n個節點中找到目标值，一般隻需要log(n)次比較。

二叉查找樹的結構不适合資料庫，因為它的查找效率與層數相關。越處在下層的資料，就需要越多次比較。極端情況下，n個資料需要n次比較才能找到目标值。對于資料庫來說，每進入一層，就要從硬碟讀取一次資料，這非常緻命，因為硬碟的讀取時間遠遠大于資料處理時間，資料庫讀取硬碟的次數越少越好。

B樹是對二叉查找樹的改進。它的設計思想是，将相關資料盡量集中在一起，以便一次讀取多個資料，減少硬碟操作次數。

B樹的特點也有三個。

（1）一個節點可以容納多個值。比如上圖中，最多的一個節點容納了4個值。

（2）除非資料已經填滿，否則不會增加新的層。也就是說，B樹追求"層"越少越好。

（3）子節點中的值，與父節點中的值，有嚴格的大小對應關系。一般來說，如果父節點有a個值，那麼就有a+1個子節點。比如上圖中，父節點有兩個值（7和16），就對應三個子節點，第一個子節點都是小于7的值，最後一個子節點都是大于16的值，中間的子節點就是7和16之間的值。

這種資料結構，非常有利于減少讀取硬碟的次數。假定一個節點可以容納100個值，那麼3層的B樹可以容納100萬個資料，如果換成二叉查找樹，則需要20層！假定作業系統一次讀取一個節點，并且根節點保留在記憶體中，那麼B樹在100萬個資料中查找目标值，隻需要讀取兩次硬碟。

索引

資料庫以B樹格式儲存，隻解決了按照"主鍵"查找資料的問題。如果想查找其他字段，就需要建立索引（index）。

所謂索引，就是以某個字段為關鍵字的B樹檔案。假定有一張"雇員表"，包含了員工号（主鍵）和姓名兩個字段。可以對姓名建立索引檔案，該檔案以B樹格式對姓名進行儲存，每個姓名後面是其在資料庫中的位置（即第幾條記錄）。查找姓名的時候，先從索引中找到對應第幾條記錄，然後再從表格中讀取。

這種索引查找方法，叫做"索引順序存取方法"（Indexed Sequential Access Method），縮寫為ISAM。它已經有多種實作（比如C-ISAM庫和D-ISAM庫），隻要使用這些代碼庫，就能自己寫一個最簡單的資料庫。

進階功能

部署了最基本的資料存取（包括索引）以後，還可以實作一些進階功能。

1：SQL語言是資料庫通用操作語言，是以需要一個SQL解析器，将SQL指令解析為對應的ISAM操作。

2：資料庫連接配接（join）是指資料庫的兩張表通過"外鍵"，建立連接配接關系。你需要對這種操作進行優化。

3：資料庫事務（transaction）是指批量進行一系列資料庫操作，隻要有一步不成功，整個操作都不成功。是以需要有一個"記錄檔"，以便失敗時對操作進行復原。

4：備份機制：儲存資料庫的副本。

5：遠端操作：使得使用者可以在不同的機器上，通過TCP/IP協定操作資料庫。

原文釋出時間為：2018-09-21

原文作者：上海小胖

本文來自雲栖社群合作夥伴“

Python專欄

”，了解相關資訊可以關注“

”。

【底層原理】資料庫的最簡單實作

繼續閱讀

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

sqlServer根據經緯查距離

SequoiaDB巨杉資料庫C++驅動概述