作者 | Hollis
資料庫查詢相信很多人都不陌生,所有經常有人調侃程式員就是CRUD專員,這所謂的CRUD指的就是資料庫的增删改查。
在資料庫的增删改查操作中,使用最頻繁的就是查詢操作。而在所有查詢操作中,統計數量操作更是經常被用到。
關于資料庫中行數統計,無論是MySQL還是Oracle,都有一個函數可以使用,那就是COUNT。
認識COUNT
關于COUNT函數,在MySQL官網中有詳細介紹:

簡單翻譯一下:
1、COUNT(expr) ,傳回SELECT語句檢索的行中expr的值不為NULL的數量。結果是一個BIGINT值。
2、如果查詢結果沒有命中任何記錄,則傳回0
3、但是,值得注意的是,
COUNT(*)
的統計結果中,會包含值為NULL的行數。
即以下表記錄
create table #bla(id int,id2 int)
insert #bla values(null,null)
insert #bla values(1,null)
insert #bla values(null,1)
insert #bla values(1,null)
insert #bla values(null,1)
insert #bla values(1,null)
insert #bla values(null,null)
使用語句count(*),count(id),count(id2)查詢結果如下:
select count(*),count(id),count(id2)
from #bla
results 7 3 2
除了
COUNT(id)
和
COUNT(*)
以外,還可以使用
COUNT(常量)
(如
COUNT(1)
)來統計行數,那麼這三條SQL語句有什麼差別呢?到底哪種效率更高呢?為什麼《阿裡巴巴Java開發手冊》中強制要求不讓使用
COUNT(列名)
或
COUNT(常量)
來替代
COUNT(*)
呢?
COUNT(列名)、COUNT(常量)和COUNT(*)之間的差別
前面我們提到過
COUNT(expr)
用于做行數統計,統計的是expr不為NULL的行數,那麼
COUNT(列名)
、
COUNT(常量)
COUNT(*)
這三種文法中,expr分别是
列名
常量
*
。
那麼
列名
常量
*
這三個條件中,
常量
是一個固定值,肯定不為NULL。
*
可以了解為查詢整行,是以肯定也不為NULL,那麼就隻有
列名
的查詢結果有可能是NULL了。
是以,
COUNT(常量)
COUNT(*)
表示的是直接查詢符合條件的資料庫表的行數。而
COUNT(列名)
表示的是查詢符合條件的列的值不為NULL的行數。
除了查詢得到結果集有差別之外,
COUNT(*)
相比
COUNT(常量)
COUNT(列名)
來講,
COUNT(*)
是SQL92定義的标準統計行數的文法,因為他是标準文法,是以MySQL資料庫對他進行過很多優化。
SQL92,是資料庫的一個ANSI/ISO标準。它定義了一種語言(SQL)以及資料庫的行為(事務、隔離級别等)。
COUNT(*)的優化
前面提到了
COUNT(*)
是SQL92定義的标準統計行數的文法,是以MySQL資料庫對他進行過很多優化。那麼,具體都做過哪些事情呢?
這裡的介紹要區分不同的執行引擎。MySQL中比較常用的執行引擎就是InnoDB和MyISAM。
MyISAM和InnoDB有很多差別,其中有一個關鍵的差別和我們接下來要介紹的
COUNT(*)
有關,那就是MyISAM不支援事務,MyISAM中的鎖是表級鎖;而InnoDB支援事務,并且支援行級鎖。
因為MyISAM的鎖是表級鎖,是以同一張表上面的操作需要串行進行,是以,MyISAM做了一個簡單的優化,那就是它可以把表的總行數單獨記錄下來,如果從一張表中使用COUNT(*)進行查詢的時候,可以直接傳回這個記錄下來的數值就可以了,當然,前提是不能有where條件。
MyISAM之是以可以把表中的總行數記錄下來供COUNT(*)查詢使用,那是因為MyISAM資料庫是表級鎖,不會有并發的資料庫行數修改,是以查詢得到的行數是準确的。
但是,對于InnoDB來說,就不能做這種緩存操作了,因為InnoDB支援事務,其中大部分操作都是行級鎖,是以可能表的行數可能會被并發修改,那麼緩存記錄下來的總行數就不準确了。
但是,InnoDB還是針對COUNT(*)語句做了些優化的。
在InnoDB中,使用COUNT(*)查詢行數的時候,不可避免的要進行掃表了,那麼,就可以在掃表過程中下功夫來優化效率了。
從MySQL 8.0.13開始,針對InnoDB的
SELECT COUNT(*) FROM tbl_name
語句,确實在掃表的過程中做了一些優化。前提是查詢語句中不包含WHERE或GROUP BY等條件。
我們知道,COUNT(*)的目的隻是為了統計總行數,是以,他根本不關心自己查到的具體值,是以,他如果能夠在掃表的過程中,選擇一個成本較低的索引進行的話,那就可以大大節省時間。
我們知道,InnoDB中索引分為聚簇索引(主鍵索引)和非聚簇索引(非主鍵索引),聚簇索引的葉子節點中儲存的是整行記錄,而非聚簇索引的葉子節點中儲存的是該行記錄的主鍵的值。
是以,相比之下,非聚簇索引要比聚簇索引小很多,是以MySQL會優先選擇最小的非聚簇索引來掃表。是以,當我們建表的時候,除了主鍵索引以外,建立一個非主鍵索引還是有必要的。
至此,我們介紹完了MySQL資料庫對于COUNT(*)的優化,這些優化的前提都是查詢語句中不包含WHERE以及GROUP BY條件。
COUNT(*)和COUNT(1)
介紹完了
COUNT(*)
,接下來看看
COUNT(1)
,對于,這二者到底有沒有差別,網上的說法衆說紛纭。
有的說
COUNT(*)
執行時會轉換成
COUNT(1)
,是以COUNT(1)少了轉換步驟,是以更快。
還有的說,因為MySQL針對
COUNT(*)
做了特殊優化,是以
COUNT(*)
更快。
那麼,到底哪種說法是對的呢?看下MySQL官方文檔是怎麼說的:
InnoDB handles SELECT COUNT(*) and SELECT COUNT(1) operations in the same way. There is no performance difference.
畫重點:
same way
,
no performance difference
。是以,對于COUNT(1)和COUNT(*),MySQL的優化是完全一樣的,根本不存在誰比誰快!
那既然
COUNT(*)
COUNT(1)
一樣,建議用哪個呢?
建議使用
COUNT(*)
!因為這個是SQL92定義的标準統計行數的文法,而且本文隻是基于MySQL做了分析,關于Oracle中的這個問題,也是衆說紛纭的呢。
COUNT(字段)
最後,就是我們一直還沒提到的COUNT(字段),他的查詢就比較簡單粗暴了,就是進行全表掃描,然後判斷指定字段的值是不是為NULL,不為NULL則累加。
COUNT(*)
,
COUNT(字段)
多了一個步驟就是判斷所查詢的字段是否為NULL,是以他的性能要比
COUNT(*)
慢。
總結
本文介紹了COUNT函數的用法,主要用于統計表行數。主要用法有
COUNT(*)
COUNT(字段)
COUNT(1)
因為
COUNT(*)
是SQL92定義的标準統計行數的文法,是以MySQL對他進行了很多優化,MyISAM中會直接把表的總行數單獨記錄下來供
COUNT(*)
查詢,而InnoDB則會在掃表的時候選擇最小的索引來降低成本。當然,這些優化的前提都是沒有進行where和group的條件查詢。
在InnoDB中
COUNT(*)
COUNT(1)
實作上沒有差別,而且效率一樣,但是
COUNT(字段)
需要進行字段的非NULL判斷,是以效率會低一些。
COUNT(*)
是SQL92定義的标準統計行數的文法,并且效率高,是以請直接使用
COUNT(*)
查詢表的行數!
參考資料:
《極客時間——MySQL實戰45講》來源 | HollisChuang's Blog