天天看點

SQL 性能優化梳理

前言

本文主要針對的是關系型資料資料庫MySql。鍵值類資料庫可以參考:

https://www.jianshu.com/p/098a870d83e4

先簡單梳理下Mysql的基本概念,然後分建立時和查詢時這兩個階段的優化展開。

1 基本概念簡述

1.1 邏輯架構

SQL 性能優化梳理
  • 第一層:用戶端通過連接配接服務,将要執行的sql指令傳輸過來
  • 第二層:伺服器解析并優化sql,生成最終的執行計劃并執行
  • 第三層:存儲引擎,負責資料的儲存和提取

1.2 鎖

資料庫通過鎖機制來解決并發場景-共享鎖(讀鎖)和排他鎖(寫鎖)。讀鎖是不阻塞的,多個用戶端可以在同一時刻讀取同一個資源。寫鎖是排他的,并且會阻塞其他的讀鎖和寫鎖。簡單提下樂觀鎖和悲觀鎖。

  • ​樂觀鎖​,通常用于資料競争不激烈的場景,多讀少寫,通過版本号和時間戳實作。
  • ​悲觀鎖​,通常用于資料競争激烈的場景,每次操作都會鎖定資料。

要鎖定資料需要一定的鎖政策來配合。

  • ​表鎖​,鎖定整張表,開銷最小,但是會加劇鎖競争。
  • ​行鎖​,鎖定行級别,開銷最大,但是可以最大程度的支援并發。

但是MySql的存儲引擎的真實實作不是簡單的行級鎖,一般都是實作了多版本并發控制(MVCC)。MVCC是行級鎖的變種,多數情況下避免了加鎖操作,開銷更低。MVCC是通過儲存資料的某個時間點快照實作的。

1.3 事務

事務保證一組原子性的操作,要麼全部成功,要麼全部失敗。一旦失敗,復原之前的所有操作。MySql采用自動送出,如果不是顯式的開啟一個事務,則每個查詢都作為一個事務。

隔離級别控制了一個事務中的修改,哪些在事務内和事務間是可見的。四種常見的隔離級别:

  • ​未送出讀​(Read UnCommitted),事務中的修改,即使沒送出對其他事務也是可見的。事務可能讀取未送出的資料,造成髒讀。
  • ​送出讀​(Read Committed),一個事務開始時,隻能看見已送出的事務所做的修改。事務未送出之前,所做的修改對其他事務是不可見的。也叫不可重複讀,同一個事務多次讀取同樣記錄可能不同。
  • ​可重複讀​(RepeatTable Read),同一個事務中多次讀取同樣的記錄結果時結果相同。
  • ​可串行化​(Serializable),最高隔離級别,強制事務串行執行。

1.4 存儲引擎

InnoDB引擎,最重要,使用最廣泛的存儲引擎。被用來設計處理大量短期事務,具有高性能和自動崩潰恢複的特性。

MyISAM引擎,不支援事務和行級鎖,崩潰後無法安全恢複。

2 建立時優化

2.1 Schema和資料類型優化

​整數​

TinyInt,SmallInt,MediumInt,Int,BigInt 使用的存儲8,16,24,32,64位存儲空間。使用Unsigned表示不允許負數,可以使正數的上線提高一倍。

​實數​

  • Float,Double , 支援近似的浮點運算。
  • Decimal,用于存儲精确的小數。

​字元串​​

  • VarChar,存儲變長的字元串。需要1或2個額外的位元組記錄字元串的長度。
  • Char,定長,适合存儲固定長度的字元串,如MD5值。
  • Blob,Text 為了存儲很大的資料而設計的。分别采用二進制和字元的方式。

​時間類型​​

  • DateTime,儲存大範圍的值,占8個位元組。
  • TimeStamp,推薦,與UNIX時間戳相同,占4個位元組。

​優化建議點​​

  • 盡量使用對應的資料類型。比如,不要用字元串類型儲存時間,用整型儲存IP。
  • 選擇更小的資料類型。能用TinyInt不用Int。
  • 辨別列(identifier column),建議使用整型,不推薦字元串類型,占用更多空間,而且計算速度比整型慢。
  • 不推薦ORM系統自動生成的Schema,通常具有不注重資料類型,使用很大的VarChar類型,索引利用不合理等問題。
  • 真實場景混用範式和反範式。備援高查詢效率高,插入更新效率低;備援低插入更新效率高,查詢效率低。
  • 建立完全的獨立的彙總表\緩存表,定時生成資料,用于使用者耗時時間長的操作。對于精确度要求高的彙總操作,可以采用 曆史結果+最新記錄的結果 來達到快速查詢的目的。
  • 資料遷移,表更新的過程中可以使用影子表的方式,通過修改原表的表名,達到儲存曆史資料,同時不影響新表使用的目的。

2.2 索引

索引包含一個或多個列的值。MySql隻能高效的利用索引的最左字首列。索引的優勢:

  • 減少查詢掃描的資料量
  • 避免排序和零時表
  • 将随機IO變為順序IO (順序IO的效率高于随機IO)

​B-Tree​

使用最多的索引類型。采用B-Tree資料結構來存儲資料(每個葉子節點都包含指向下一個葉子節點的指針,進而友善葉子節點的周遊)。B-Tree索引适用于全鍵值,鍵值範圍,鍵字首查找,支援排序。

B-Tree索引限制:

  • 如果不是按照索引的最左列開始查詢,則無法使用索引。
  • 不能跳過索引中的列。如果使用第一列和第三列索引,則隻能使用第一列索引。
  • 如果查詢中有個範圍查詢,則其右邊的所有列都無法使用索引優化查詢。

​哈希索引​

隻有精确比對索引的所有列,查詢才有效。存儲引擎會對所有的索引列計算一個哈希碼,哈希索引将所有的哈希碼存儲在索引中,并儲存指向每個資料行的指針。

哈希索引限制:

  • 無法用于排序
  • 不支援部分比對
  • 隻支援等值查詢如=,IN(),不支援 < >

​優化建議點​

  • 注意每種索引的适用範圍和适用限制。
  • 索引的列如果是表達式的一部分或者是函數的參數,則失效。
  • 針對特别長的字元串,可以使用字首索引,根據索引的選擇性選擇合适的字首長度。
  • 使用多列索引的時候,可以通過 AND 和 OR 文法連接配接。
  • 重複索引沒必要,如(A,B)和(A)重複。
  • 索引在where條件查詢和group by文法查詢的時候特别有效。
  • 将範圍查詢放在條件查詢的最後,防止範圍查詢導緻的右邊索引失效的問題。
  • 索引最好不要選擇過長的字元串,而且索引列也不宜為null。

3 查詢時優化

3.1 查詢品質的三個重要名額

  • 響應時間 (服務時間,排隊時間)
  • 掃描的行
  • 傳回的行

3.2 查詢優化點

  • 避免查詢無關的列,如使用Select * 傳回所有的列。
  • 避免查詢無關的行
  • 切分查詢。将一個對伺服器壓力較大的任務,分解到一個較長的時間中,并分多次執行。如要删除一萬條資料,可以分10次執行,每次執行完成後暫停一段時間,再繼續執行。過程中可以釋放伺服器資源給其他任務。
  • 分解關聯查詢。将多表關聯查詢的一次查詢,分解成對單表的多次查詢。可以減少鎖競争,查詢本身的查詢效率也比較高。因為MySql的連接配接和斷開都是輕量級的操作,不會由于查詢拆分為多次,造成效率問題。
  • 注意count的操作隻能統計不為null的列,是以統計總的行數使用count(*)。
  • group by 按照辨別列分組效率高,分組結果不宜出行分組列之外的列。
  • 關聯查詢延遲關聯,可以根據查詢條件先縮小各自要查詢的範圍,再關聯。
  • Limit分頁優化。可以根據索引覆寫掃描,再根據索引列關聯自身查詢其他列。如
SELECT
 id,
 NAME,
 age
WHERE
 student s1
INNER JOIN (
 SELECT
     id
 FROM
     student
 ORDER BY
     age
 LIMIT 50,5
) AS s2 ON s1.id = s2.id      
  • Union查詢預設去重,如果不是業務必須,建議使用效率更高的Union All

補充内容

1.條件中的字段類型和表結構類型不一緻,mysql會自動加轉換函數,導緻索引作為函數中的參數失效。

2.like查詢前面部分未輸入,以%開頭無法命中索引。

3.補充2個5.7版本的新特性:

generated column,就是資料庫中這一列由其他列計算而得

CREATE TABLE triangle (sidea DOUBLE, sideb DOUBLE, area DOUBLE AS (sidea * sideb / 2));
insert into triangle(sidea, sideb) values(3, 4);
select * from triangle;      
+-------+-------+------+
| sidea | sideb | area |
+-------+-------+------+
|   3      |   4      |  6     |
+-------+-------+------+      

支援JSON格式資料,并提供相關内置函數

CREATE TABLE json_test (name JSON);
INSERT INTO json_test VALUES('{"name1": "value1", "name2": "value2"}');
SELECT * FROM json_test WHERE JSON_CONTAINS(name, '$.name1');      

關注explain在性能分析中的使用

EXPLAIN SELECT settleId FROM Settle WHERE settleId = "3679"      
SQL 性能優化梳理
  • ​select_type​,有幾種值:simple(表示簡單的select,沒有union和子查詢),primary(有子查詢,最外面的select查詢就是primary),union(union中的第二個或随後的select查詢,不依賴外部查詢結果),dependent union(union中的第二個或随後的select查詢,依賴外部查詢結果)
  • ​type​,有幾種值:system(表僅有一行(=系統表),這是const連接配接類型的一個特例),const(常量查詢), ref(非唯一索引通路,隻有普通索引),eq_ref(使用唯一索引或元件查詢),all(全表查詢),index(根據索引查詢全表),range(範圍查詢)
  • ​possible_keys​: 表中可能幫助查詢的索引
  • ​key​,選擇使用的索引
  • ​key_len​,使用的索引長度