SQL 性能優化梳理

前言

本文主要針對的是關系型資料資料庫MySql。鍵值類資料庫可以參考：

https://www.jianshu.com/p/098a870d83e4

先簡單梳理下Mysql的基本概念，然後分建立時和查詢時這兩個階段的優化展開。

1 基本概念簡述

1.1 邏輯架構

第一層：用戶端通過連接配接服務，将要執行的sql指令傳輸過來
第二層：伺服器解析并優化sql，生成最終的執行計劃并執行
第三層：存儲引擎，負責資料的儲存和提取

1.2 鎖

資料庫通過鎖機制來解決并發場景-共享鎖（讀鎖）和排他鎖（寫鎖）。讀鎖是不阻塞的，多個用戶端可以在同一時刻讀取同一個資源。寫鎖是排他的，并且會阻塞其他的讀鎖和寫鎖。簡單提下樂觀鎖和悲觀鎖。

樂觀鎖，通常用于資料競争不激烈的場景，多讀少寫，通過版本号和時間戳實作。
悲觀鎖，通常用于資料競争激烈的場景，每次操作都會鎖定資料。

要鎖定資料需要一定的鎖政策來配合。

表鎖，鎖定整張表，開銷最小，但是會加劇鎖競争。
行鎖，鎖定行級别，開銷最大，但是可以最大程度的支援并發。

但是MySql的存儲引擎的真實實作不是簡單的行級鎖，一般都是實作了多版本并發控制（MVCC）。MVCC是行級鎖的變種，多數情況下避免了加鎖操作，開銷更低。MVCC是通過儲存資料的某個時間點快照實作的。

1.3 事務

事務保證一組原子性的操作，要麼全部成功，要麼全部失敗。一旦失敗，復原之前的所有操作。MySql采用自動送出，如果不是顯式的開啟一個事務，則每個查詢都作為一個事務。

隔離級别控制了一個事務中的修改，哪些在事務内和事務間是可見的。四種常見的隔離級别：

未送出讀（Read UnCommitted），事務中的修改，即使沒送出對其他事務也是可見的。事務可能讀取未送出的資料，造成髒讀。
送出讀（Read Committed），一個事務開始時，隻能看見已送出的事務所做的修改。事務未送出之前，所做的修改對其他事務是不可見的。也叫不可重複讀，同一個事務多次讀取同樣記錄可能不同。
可重複讀（RepeatTable Read），同一個事務中多次讀取同樣的記錄結果時結果相同。
可串行化（Serializable），最高隔離級别，強制事務串行執行。

1.4 存儲引擎

InnoDB引擎，最重要，使用最廣泛的存儲引擎。被用來設計處理大量短期事務，具有高性能和自動崩潰恢複的特性。

MyISAM引擎，不支援事務和行級鎖，崩潰後無法安全恢複。

2 建立時優化

2.1 Schema和資料類型優化

整數

TinyInt,SmallInt,MediumInt,Int,BigInt 使用的存儲8,16,24,32,64位存儲空間。使用Unsigned表示不允許負數，可以使正數的上線提高一倍。

實數

Float,Double , 支援近似的浮點運算。
Decimal，用于存儲精确的小數。

字元串

VarChar，存儲變長的字元串。需要1或2個額外的位元組記錄字元串的長度。
Char，定長，适合存儲固定長度的字元串，如MD5值。
Blob，Text 為了存儲很大的資料而設計的。分别采用二進制和字元的方式。

時間類型

DateTime，儲存大範圍的值，占8個位元組。
TimeStamp，推薦，與UNIX時間戳相同，占4個位元組。

優化建議點

盡量使用對應的資料類型。比如，不要用字元串類型儲存時間，用整型儲存IP。
選擇更小的資料類型。能用TinyInt不用Int。
辨別列（identifier column），建議使用整型，不推薦字元串類型，占用更多空間，而且計算速度比整型慢。
不推薦ORM系統自動生成的Schema，通常具有不注重資料類型，使用很大的VarChar類型，索引利用不合理等問題。
真實場景混用範式和反範式。備援高查詢效率高，插入更新效率低；備援低插入更新效率高，查詢效率低。
建立完全的獨立的彙總表\緩存表，定時生成資料，用于使用者耗時時間長的操作。對于精确度要求高的彙總操作，可以采用曆史結果+最新記錄的結果來達到快速查詢的目的。
資料遷移，表更新的過程中可以使用影子表的方式，通過修改原表的表名，達到儲存曆史資料，同時不影響新表使用的目的。

2.2 索引

索引包含一個或多個列的值。MySql隻能高效的利用索引的最左字首列。索引的優勢：

減少查詢掃描的資料量
避免排序和零時表
将随機IO變為順序IO （順序IO的效率高于随機IO）

B-Tree

使用最多的索引類型。采用B-Tree資料結構來存儲資料（每個葉子節點都包含指向下一個葉子節點的指針，進而友善葉子節點的周遊）。B-Tree索引适用于全鍵值，鍵值範圍，鍵字首查找，支援排序。

B-Tree索引限制：

如果不是按照索引的最左列開始查詢，則無法使用索引。
不能跳過索引中的列。如果使用第一列和第三列索引，則隻能使用第一列索引。
如果查詢中有個範圍查詢，則其右邊的所有列都無法使用索引優化查詢。

哈希索引

隻有精确比對索引的所有列，查詢才有效。存儲引擎會對所有的索引列計算一個哈希碼，哈希索引将所有的哈希碼存儲在索引中，并儲存指向每個資料行的指針。

哈希索引限制：

無法用于排序
不支援部分比對
隻支援等值查詢如=，IN（），不支援 < >

優化建議點

注意每種索引的适用範圍和适用限制。
索引的列如果是表達式的一部分或者是函數的參數，則失效。
針對特别長的字元串，可以使用字首索引，根據索引的選擇性選擇合适的字首長度。
使用多列索引的時候，可以通過 AND 和 OR 文法連接配接。
重複索引沒必要，如（A，B）和（A）重複。
索引在where條件查詢和group by文法查詢的時候特别有效。
将範圍查詢放在條件查詢的最後，防止範圍查詢導緻的右邊索引失效的問題。
索引最好不要選擇過長的字元串，而且索引列也不宜為null。

3 查詢時優化

3.1 查詢品質的三個重要名額

響應時間（服務時間，排隊時間）
掃描的行
傳回的行

3.2 查詢優化點

避免查詢無關的列，如使用Select * 傳回所有的列。
避免查詢無關的行
切分查詢。将一個對伺服器壓力較大的任務，分解到一個較長的時間中，并分多次執行。如要删除一萬條資料，可以分10次執行，每次執行完成後暫停一段時間，再繼續執行。過程中可以釋放伺服器資源給其他任務。
分解關聯查詢。将多表關聯查詢的一次查詢，分解成對單表的多次查詢。可以減少鎖競争，查詢本身的查詢效率也比較高。因為MySql的連接配接和斷開都是輕量級的操作，不會由于查詢拆分為多次，造成效率問題。
注意count的操作隻能統計不為null的列，是以統計總的行數使用count（*）。
group by 按照辨別列分組效率高，分組結果不宜出行分組列之外的列。
關聯查詢延遲關聯，可以根據查詢條件先縮小各自要查詢的範圍，再關聯。
Limit分頁優化。可以根據索引覆寫掃描，再根據索引列關聯自身查詢其他列。如

SELECT
 id,
 NAME,
 age
WHERE
 student s1
INNER JOIN (
 SELECT
     id
 FROM
     student
 ORDER BY
     age
 LIMIT 50,5
) AS s2 ON s1.id = s2.id

Union查詢預設去重，如果不是業務必須，建議使用效率更高的Union All

補充内容

1.條件中的字段類型和表結構類型不一緻，mysql會自動加轉換函數，導緻索引作為函數中的參數失效。

2.like查詢前面部分未輸入，以%開頭無法命中索引。

3.補充2個5.7版本的新特性：

generated column，就是資料庫中這一列由其他列計算而得

CREATE TABLE triangle (sidea DOUBLE, sideb DOUBLE, area DOUBLE AS (sidea * sideb / 2));
insert into triangle(sidea, sideb) values(3, 4);
select * from triangle;

+-------+-------+------+
| sidea | sideb | area |
+-------+-------+------+
|   3      |   4      |  6     |
+-------+-------+------+

支援JSON格式資料，并提供相關内置函數

CREATE TABLE json_test (name JSON);
INSERT INTO json_test VALUES('{"name1": "value1", "name2": "value2"}');
SELECT * FROM json_test WHERE JSON_CONTAINS(name, '$.name1');

關注explain在性能分析中的使用

EXPLAIN SELECT settleId FROM Settle WHERE settleId = "3679"

select_type，有幾種值：simple（表示簡單的select，沒有union和子查詢），primary（有子查詢，最外面的select查詢就是primary），union（union中的第二個或随後的select查詢，不依賴外部查詢結果），dependent union（union中的第二個或随後的select查詢，依賴外部查詢結果）
type，有幾種值：system（表僅有一行（=系統表），這是const連接配接類型的一個特例），const（常量查詢）, ref(非唯一索引通路，隻有普通索引)，eq_ref（使用唯一索引或元件查詢），all（全表查詢），index（根據索引查詢全表），range（範圍查詢）
possible_keys: 表中可能幫助查詢的索引
key，選擇使用的索引
key_len，使用的索引長度

SQL 性能優化梳理

前言

1 基本概念簡述

1.1 邏輯架構

1.2 鎖

1.3 事務

1.4 存儲引擎

2 建立時優化

2.1 Schema和資料類型優化

2.2 索引

3 查詢時優化

3.1 查詢品質的三個重要名額

3.2 查詢優化點

補充内容

繼續閱讀

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method