天天看點

對于MySql存儲結構的認知

作者:黑芝麻湯圓他爹

1.表空間

不同的存儲引擎在磁盤檔案上的結構均不一緻,這裡以InnoDB為例:

CREATE TABLE t(id int(11)) Engine = INNODB;           

在新表建立的過程中,InnoDB會在磁盤的data目錄下建立與這個表對應的兩個檔案:t.frm、t.ibd。

  • t.frm 存儲了表結構等資訊,檔案相對較小
  • t.ibd 就是常說的”表空間“檔案,它用來存儲表的資料和索引。檔案大小取決于表中的資料量。

注意:隻有在mysql5.7版本後才會為每個表生成一個ibd檔案,稱為獨立表空間,在此之前所有表的資料和索引都會存儲系統表空間中。系統表空間也被稱為共享表空間,即所有表共享一個實體表空間檔案。

在mysql8.0之後開始去掉了frm檔案,表結構定義預設内置到InnoDB的ibd檔案中

我們也可以通過全局參數 innodb file per table 來進行設定。

-- 檢視每個表都建立表空間檔案狀态SHOW VARIABLES LIKE 'innodb_file_per_table';-- 開啟"每個表都建立表空間檔案功能"SET @@global.innodb_file_per_table= ON;           

表空間共分為五類,除了上面說的獨立表空間,系統表空間,還有Undo表空間、通用表空間、臨時表空間。在官方的的文檔中,獨立表空間相比于系統表空間,具有可壓縮,可傳輸等優勢。

2.頁

在ibd檔案中,最重要的結構體就是”頁“(Pages),即InnoDB中記憶體和磁盤互動的最小存儲單元。Mysql每次記憶體于磁盤互動資料,都會至少讀寫一個“頁”的大小,是以在磁盤中每個“頁”内部的位址都是連續的。

要查詢的資料很多情況下都是連續存在的,是以存在這樣的機制,隻需在磁盤中讀取一段連續的資料放入記憶體(Buffer Pool),後續的查詢大機率可以直接從記憶體中找到。這樣就減少了磁盤的通路次數,進而大大提升效率。這一段固定的連續的資料就被稱為“頁”。

頁的大小為固定的16KB,即使沒有資料也會占用16KB大小。這16KB的内容具體結構比較多樣,在不同的場景會使用不同類型的“頁”,一共有12種頁類型。但無論什麼類型的頁均會包含“頁頭”(File Header)和“頁尾”(File Trailer),在頁頭和頁尾之間的頁的“主體資訊”會根據不同的頁類型由不同的結構。

對于MySql存儲結構的認知

最為常用的就是用來存儲資料和索引的“索引頁”,它的主體資訊會使用資料“行”進行填充。

-- 檢視某表的行類型SELECT t.SPACE,t.NAME,t.ROW_FORMAT FROM information_schema.INNODB_SYS_TABLESPACES           

相比頁的大小為固定值,行則不同,它是一個最大為8K但大小不固定的結構,内部主要包括表裡某一行的真實資料和一些額外資訊。

3.區

Mysql所有的表資料都會通過“行”、“頁”的方式存儲在磁盤中,但是每一個頁隻有16KB,當要存儲的資料和讀寫量暴增時,跨“頁”讀取就變得再平常不過了。

如果多個頁之間的實體距離過大,那多份資料在磁盤中就很有可能不在同一個磁道。為了讀取資料,就會發生磁頭移動,這種移動是實體擺動,相比磁片每分鐘幾千上萬次的旋轉讀取要緩慢得多,是以磁頭移動會大大降低性能。

需要盡可能在磁道上讀取連續的資料,減少磁頭的移動才能提升效率。是以MySql還存在一個叫“區”的結構。每個區都固定為1MB,存放64個連續位址的頁,這樣即使跨頁讀取相關資料,大機率都在附近的位址,減少了磁頭移動,提高了效率。

于此同時,如果頻繁地讀取某個“區”内的”頁“,Mysql就會将這個區中的所有資料讀取出來,放入記憶體中,減少後續查詢對磁盤的通路次數。

當然,在程式員建立新表時,由于不知道表未來的資料大小,為了不至于一次性占用過大的磁盤空間而導緻浪費,是以在建立一個表時隻會建立6個“頁”,而不是一個完整的區,共占用16*6=96KB的大小。

對于MySql存儲結構的認知
當然在mysql 8.0版本後初次會建立7個頁

這些零散”頁“會被放在表空間中一個叫碎片區的地方,解析了這6個頁後可以看到它們各有不同,其中後兩個頁為空閑頁,即可用頁。前4個頁分别記錄了表空間和區組條目資訊、Change buffer相關資訊、段資訊、索引根資訊

對于MySql存儲結構的認知

當要存儲的資料越來越多,6個初始“頁”空間不夠用的時候,就需要一個一個地新增“頁”來滿足存儲需求,當建構了32個零散”頁“之後,後續每次都會直接申請完整的”區“來存儲更多的資料。

對于MySql存儲結構的認知

4.組

然而,當''區“的數量也越來越多時,為了有效地管理區,Mysql又會使用到“組”結構。

每一個“區組”管理固定的256個區,即256MB,它的結構比較簡單,就是由256個區直接構成。其中第一個“區組”中的首個“區”的前四頁比較特殊,就是之前所說的6個初始頁中的前4個:即File Space Header、Insert Buffer Bitmap、File Segment inode、B-tree Node。

而其他區組中首個區的結構均一緻,前兩個頁分别記錄了區組條目資訊,Change buffer資訊,即Extent Descriptor(XDES)、Insert Buffer Bitmap

對于MySql存儲結構的認知

InnoDB通過“區組”,可以在實體結構層面,非常高效地管理和定位到每個區

5.段

與區、區組這種實體結構不同,”段“是一個邏輯概念,并不對應表空間中連續的實體區域,可以看成區、頁的一個附加的标注資訊。

段的主要作用是用來區分不同功能的“區”和在碎片區中的”頁“,分為”葉子節點段“和”非葉子節點段“等,這兩個段與我們常說的B+樹索引中的葉子、非葉子節點相對應,也可以簡單地了解為“非葉子節點段”存儲和管理索引樹,“葉子節點段”存儲和管理實際資料。

從邏輯上講,最終由葉子節點段和非葉子節點段等段構成了最終的表空間ibd檔案。

對于MySql存儲結構的認知
對于MySql存儲結構的認知

繼續閱讀