開源分析資料庫ClickHouse和開源esProc SPL的性能對比

ClickHouse vs Oracle

開源分析資料庫ClickHouse以快著稱，真的如此嗎？我們通過對比測試來驗證一下。

先用ClickHouse（簡稱CH）、Oracle資料庫（簡稱ORA）一起在相同的軟硬體環境下做對比測試。測試基準使用國際廣泛認可的TPC-H，針對8張表，完成22條SQL語句定義的計算需求（Q1到Q22）。測試采用單機12線程，資料總規模100G。TPC-H對應的SQL都比較長，這裡就不詳細列出了。

Q1是簡單的單表周遊計算分組彙總，對比測試結果如下：

CH計算Q1的表現要好于ORA，說明CH的列式存儲做得不錯，單表周遊速度很快。而ORA主要吃虧在使用了行式存儲，明顯要慢得多了。

但是，如果我們加大計算複雜度，CH的表現怎麼樣呢？繼續看TPC-H的Q2、Q3、Q7，測試結果如下：

計算變得複雜之後，CH性能出現了明顯的下降。Q2涉及資料量較少，列存作用不大，CH性能和ORA幾乎一樣。Q3資料量較大，CH占了列存的便宜後超過了ORA。Q7資料也較大，但是計算複雜，CH性能還不如ORA。

做複雜計算快不快，主要看性能優化引擎做的好不好。CH的列存占據了巨大的存儲優勢，但竟然被ORA用行式存儲趕上，這說明CH的算法優化能力遠不如ORA。

TPC-H的Q8是更複雜一些的計算，子查詢中有多表連接配接，CH跑了2000多秒還沒有出結果，應該是卡死了，ORA跑了192秒。Q9在Q8的子查詢中增加了like，CH直接報記憶體不足的錯誤了，ORA跑了234秒。其它還有些複雜運算是CH跑不出來的，就沒法做個總體比較了。

CH和ORA都基于SQL語言，但是ORA能優化出來的語句，CH卻跑不出來，更證明CH的優化引擎能力比較差。

坊間傳說，CH隻擅長做單表周遊運算，有關聯運算時甚至跑不過MySQL，看來并非虛妄胡說。想用CH的同學要掂量一下了，這種場景到底能有多大的适應面？

esProc SPL登場

開源esProc SPL也是以高性能作為宣傳點，那麼我們再來比較一下。

仍然是跑TPC-H來看：

Q2、Q3、Q7這些較複雜的運算，SPL比CH和ORA跑的都快。CH跑不出結果的Q8、Q9，SPL分别跑了37秒和68秒，也比ORA快。原因在于SPL可以采用更優的算法，其計算複雜度低于被ORA優化過的SQL，更遠低于CH執行的SQL，再加上列存，最終是用Java開發的SPL跑赢了C++實作的CH和ORA。

大概可以得到結論，esProc SPL無論做簡單計算，還是複雜計算性能都非常好。

不過，Q1這種簡單運算，CH比SPL還是略勝了一籌。似乎可以進一步證明前面的結論，即CH特别擅長簡單周遊運算。

且慢，SPL還有秘密武器。

SPL的企業版中提供了列式遊标機制，我們再來對比測試一下：在8億條資料量下，做最簡單的分組彙總計算，對比SPL（使用列式遊标）和CH的性能。（采用的機器配置比前面做TPC-H測試時略低，是以測出的結果不同，不過這裡主要看相對值。）

簡單分組彙總對應CH的SQL語句是：

SQL1：

SELECT mod(id, 100) AS Aid, max(amount) AS Amax
FROM test.t
GROUP BY mod(id, 100)

這個測試的結果是下圖這樣：

SPL使用列式遊标機制之後，簡單周遊分組計算的性能也和CH一樣了。如果在TPC-H的Q1測試中也使用列式遊标，SPL也會達到和CH同樣的性能。

測試過程中發現，8億條資料存成文本格式占用磁盤15G，在CH中占用5.4G，SPL占用8G。說明CH和SPL都采用了壓縮存儲，CH的壓縮比更高些，也進一步證明CH的存儲引擎做得确實不錯。不過，SPL也可以達到和CH同樣的性能，這說明SPL存儲引擎和算法優化做得都比較好，高性能計算能力更加均衡。

目前版本的SPL是用Java寫的，Java讀數後生成用于計算的對象的速度很慢，而用C++開發的CH則沒有這個問題。對于複雜的運算，讀數時間占比不高，Java生成對象慢造成的拖累還不明顯；而對于簡單的周遊運算，讀數時間占比很高，是以前面測試中SPL就會比CH更慢。列式遊标優化了讀數方案，不再生成一個個小對象，使對象生成次數大幅降低，這時候就能把差距拉回來了。單純從存儲本身看，SPL和CH相比并沒有明顯的優劣之分。

接下來再看正常TopN的對比測試，CH的SQL是：

SQL2：

SELECT * FROM test.t ORDER BY amount DESC LIMIT 100

對比測試結果是這樣的：

單看CH的SQL2，正常TopN的計算方法是全排序後取出前N條資料。資料量很大時，如果真地做全排序，性能會非常差。SQL2的測試結果說明，CH應該和SPL一樣做了優化，沒有全排序，是以兩者性能都很快，SPL稍快一些。

也就是說，無論簡單運算還是複雜運算，esProc SPL都能更勝一籌。

進一步的差距

差距還不止于此。

正如前面所說，CH和ORA使用SQL語言，都是基于關系模型的，是以都面臨SQL優化的問題。TPC-H測試證明，ORA能優化的一些場景CH卻優化不了，甚至跑不出結果。那麼，如果面對一些ORA也不會優化的計算，CH就更不會優化了。比如說我們将SQL1的簡單分組彙總，改為兩種分組彙總結果再連接配接，CH的SQL寫出來大緻是這樣：

SQL3：

SELECT *
FROM (
SELECT mod(id, 100) AS Aid, max(amount) AS Amax
FROM test.t
GROUP BY mod(id, 100)
) A
JOIN (
SELECT floor(id / 200000) AS Bid, min(amount) AS Bmin
FROM test.t
GROUP BY floor(id / 200000)
) B
ON A.Aid = B.Bid

這種情況下，對比測試的結果是CH的計算時間翻倍，SPL則不變：

這是因為SPL不僅使用了列式遊标，還使用了周遊複用機制，能在一次周遊過程中計算出多種分組結果，可以減少很多硬碟通路量。CH使用的SQL無法寫出這樣的運算，隻能靠CH自身的優化能力了。而CH算法優化能力又很差，其優化引擎在這個測試中沒有起作用，隻能周遊兩次，是以性能下降了一倍。

SPL實作周遊複用的代碼很簡單，大緻是這樣：

A	B
1	=file("topn.ctx").open().cursor@mv(id,amount)
2	cursor A1	=A2.groups(id%100:Aid;max(amount):Amax)
3	cursor	=A3.groups(id\200000:Bid;min(amount):Bmin)
4	=A2.join@i(Aid,A3:Bid,Bid,Bmin)

再将SQL2正常TopN計算，調整為分組後求組内TopN。對應SQL是：

SQL4：

SELECT
gid,
groupArray(100)(amount) AS amount
FROM
(
SELECT
mod(id, 10) AS gid,
amount
FROM test.topn
ORDER BY
gid ASC,
amount DESC
) AS a
GROUP BY gid

這個分組TopN測試的對比結果是下面這樣的：

CH做分組TopN計算比正常TopN慢了42倍，說明CH在這種情況下很可能做了排序動作。也就是說，情況複雜化之後，CH的優化引擎又不起作用了。與SQL不同，SPL把TopN看成是一種聚合運算，和sum、count這類運算的計算邏輯是一樣的，都隻需要對原資料周遊一次。這樣，分組求組内TopN就和分組求和、計數一樣了，可以避免排序計算。是以，SPL計算分組TopN比CH快了22倍。

而且，SPL計算分組TopN的代碼也不複雜：

A
1	=file("topn.ctx").open().cursor@mv(id,amount)
2	=A1.groups(id%10:gid;top(10;-amount)).news(#2;gid,~.amount)

不隻是跑得快

再來看看電商系統中常見的漏鬥運算。SPL的代碼依然很簡潔：

A	B
1	=["etype1","etype2","etype3"]	=file("event.ctx").open()
2	=B1.cursor(id,etime,etype;etime>=date("2021-01-10") && etime<date("2021-01-25") && A1.contain(etype) && …)
3	=A2.group(id).(~.sort(etime))	=A3.new(.select@1(etype==A1(1)):first,:all).select(first)
4	=B3.(A1.(t=if(#1,t1=first.etime,if(t,all.select@1(etypeA1.~ && etime>t && etime<t1+7).etime, null))))
5	=A4.groups(;count((1)):STEP1,count((2)):STEP2,count(~(3)):STEP3)

CH的SQL無法實作這樣的計算，我們以ORA為例看看三步漏鬥的SQL寫法：

with e1 as (
select gid,1 as step1,min(etime) as t1
from T
where etime>= to_date('2021-01-10', 'yyyy-MM-dd') and etime<to_date('2021-01-25', 'yyyy-MM-dd')
and eventtype='eventtype1' and …
group by 1
),
with e2 as (
select gid,1 as step2,min(e1.t1) as t1,min(e2.etime) as t2
from T as e2
inner join e1 on e2.gid = e1.gid
where e2.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e2.etime<to_date('2021-01-25', 'yyyy-MM-dd')
and e2.etime > t1
and e2.etime < t1 + 7
and eventtype='eventtype2' and …
group by 1
),
with e3 as (
select gid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3
from T as e3
inner join e2 on e3.gid = e2.gid
where e3.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e3.etime<to_date('2021-01-25', 'yyyy-MM-dd')
and e3.etime > t2
and e3.etime < t1 + 7
and eventtype='eventtype3' and …
group by 1
)
select
sum(step1) as step1,
sum(step2) as step2,
sum(step3) as step3
from
e1
left join e2 on e1.gid = e2.gid
left join e3 on e2.gid = e3.gid

ORA 的SQL寫出來要三十多行，了解起來有相當的難度。而且這段代碼和漏鬥的步驟數量相關，每增加一步數就要再增加一段子查詢。相比之下，SPL就簡單得多，處理任意步驟數都是這段代碼。

SPL資料

SPL下載下傳
SPL源代碼

開源分析資料庫ClickHouse和開源esProc SPL的性能對比

ClickHouse vs Oracle

esProc SPL登場

進一步的差距

不隻是跑得快

SPL資料

繼續閱讀

龍珠訓練營task04

阿裡雲天池龍珠計劃SQL訓練營打卡

阿裡雲天池龍珠計劃SQL訓練營day1

實驗樓sql進階之成績管理系統的資料操作(window)

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Oracle的基本操作

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

neo4j之cypher使用文檔

詳解STM32單片機的堆棧

sqlServer根據經緯查距離