MySQL執行SQL會經過SQL解析和查詢優化的過程,解析器将SQL分解成資料結構并傳遞到後續步驟,查詢優化器發現執行SQL查詢的最佳方案、生成執行計劃。查詢優化器決定SQL如何執行,依賴于資料庫的統計資訊,下面我們介紹MySQL 5.7中innodb統計資訊的相關内容。
MySQL統計資訊的存儲分為兩種,非持久化和持久化統計資訊。
一、非持久化統計資訊
非持久化統計資訊存儲在記憶體裡,如果資料庫重新開機,統計資訊将丢失。有兩種方式可以設定為非持久化統計資訊:

非持久化統計資訊在以下情況會被自動更新:
非持久化統計資訊的缺點顯而易見,資料庫重新開機後如果大量表開始更新統計資訊,會對執行個體造成很大影響,是以目前都會使用持久化統計資訊。
5.6.6開始,MySQL預設使用了持久化統計資訊,即INNODB_STATS_PERSISTENT=ON,持久化統計資訊儲存在表mysql.innodb_table_stats和mysql.innodb_index_stats。
持久化統計資訊在以下情況會被自動更新:
innodb_table_stats是表的統計資訊,innodb_index_stats是索引的統計資訊,各字段含義如下:
為更好的了解innodb_index_stats,建一張測試表做說明:
寫入資料如下:
檢視t1表的統計資訊,需主要關注stat_name和stat_value字段
stat_name=size時:stat_value表示索引的頁的數量
stat_name=n_leaf_pages時:stat_value表示葉子節點的數量
stat_name=n_diff_pfxNN時:stat_value表示索引字段上唯一值的數量,此處做一下具體說明:
1、n_diff_pfx01表示索引第一列distinct之後的數量,如PRIMARY的a列,隻有一個值1,是以index_name='PRIMARY' and stat_name='n_diff_pfx01'時,stat_value=1。
2、n_diff_pfx02表示索引前兩列distinct之後的數量,如i2uniq的e,f列,有4個值,是以index_name='i2uniq' and stat_name='n_diff_pfx02'時,stat_value=4。
3、對于非唯一索引,會在原有列之後加上主鍵索引,如index_name=’i1’ and stat_name=’n_diff_pfx03’,在原索引列c,d後加了主鍵列a,(c,d,a)的distinct結果為2。
了解了stat_name和stat_value的具體含義,就可以協助我們排查SQL執行時為什麼沒有使用合适的索引,例如某個索引n_diff_pfxNN的stat_value遠小于實際值,查詢優化器認為該索引選擇度較差,就有可能導緻使用錯誤的索引。
<b>三、統計資訊不準确的處理</b>
我們檢視執行計劃,發現未使用正确的索引,如果是innodb_index_stats中統計資訊差别較大引起,可通過以下方式處理:
1、手動更新統計資訊,注意執行過程中會加讀鎖:
ANALYZETABLE TABLE_NAME;
2、如果更新後統計資訊仍不準确,可考慮增加表采樣的資料頁,兩種方式可以修改:
a) 全局變量INNODB_STATS_PERSISTENT_SAMPLE_PAGES,預設為20;
b) 單個表可以指定該表的采樣:
ALTER TABLE TABLE_NAME STATS_SAMPLE_PAGES=40;
經測試,此處STATS_SAMPLE_PAGES的最大值是65535,超出會報錯。
目前MySQL并沒有提供直方圖的功能,某些情況下(如資料分布不均)僅僅更新統計資訊不一定能得到準确的執行計劃,隻能通過index hint的方式指定索引。新版本8.0會增加直方圖功能,讓我們期待MySQL越來越強大的功能吧!
原文釋出時間為:2018-01-23
本文作者:王小龍