天天看點

基于開源應用快速建構HTAP系統(1)

1. 關于ClickHouse

企業裡随着資料量的增加,以及日趨複雜的分析性業務需求,主要适用于OLTP場景的MySQL壓力越來越大。多年前還能免費試用的infobright社群版也早就銷聲匿迹,infinidb被MariaDB收入囊中之後改頭換面變成ColumnStore,但最近幾年發展的平平淡淡,都不是理想的OLAP方案。

戰鬥民族出品的ClickHouse這幾年則是風頭正勁,國内使用者也越來越多,幾大公有雲上也提供相應的産品服務,是目前市面上最快的OLAP資料庫,性能遠超Vertica、Sybase IQ等。關于ClickHouse的性能也可以關注我以前的一份測試報告:

ClickHouse性能測試

ClickHouse對MySQL的相容性也很好,除了很多文法相同或接近外,甚至還可以利用MySQL用戶端(協定)連接配接到ClickHouse。

ClickHouse 可以挂載為 MySQL 的一個從庫 ,先全量再增量的實時同步 MySQL 資料,這個功能可以說是今年最亮眼、最剛需的功能,基于它我們可以輕松的打造一套企業級解決方案,讓 OLTP 和 OLAP 的融合從此不再頭疼。目前支援 MySQL 5.6/5.7/8.0 版本,相容 Delete/Update 語句,及大部分常用的 DDL 操作。隻需要安裝最新版本的ClickHouse就可以體驗到這個新特性了,不過該特性還處于experimental階段,還在不斷完善中。

2. 關于ProxySQL

ProxySQL是一款強大的中間件為MySQL的架構提供了有力的支援,支援傳統主從複制、半同步複制、MGR、PXC等多種MySQL架構,還支援故障自動檢測和切換、連接配接池、讀寫分離、日志記錄、監控、叢集部署等多項實用功能。當然了,ProxySQL最大的缺點是性能損失較大,預計至少有20% ~ 30%的性能損失,是以如果是在高性能場景下可能不太合适。不過可以考慮通過分庫分表等方式降低單節點壓力,充分發揮ProxySQL的叢集功能。

3. 建構HTAP系統

ClickHouse和ProxySQL的安裝本文不再贅述,直接開始動手建構HTAP系統。下面是整體架構示意圖

基于開源應用快速建構HTAP系統(1)

3.1 将ClickHouse配置成為MySQL的從庫

登入ClickHouse後,執行下面的指令啟用新特性:

clickhouse :) SET allow_experimental_database_materialize_mysql = 1;      

在ClickHouse中,建立一個複制通道,即可建構一個MySQL複制從庫,例如:

clickhouse :) CREATE DATABASE test ENGINE = MaterializeMySQL('172.24.10.10:3306', 'test', 'repl', 'repl');
clickhouse :) use test;
clickhouse :) show tables;
┌─name─────┐
│ sbtest1  │
│ sbtest10 │
│ sbtest11 │
...
32 rows in set. Elapsed: 0.006 sec.      

首次建立複制通道後,ClickHouse會快速從MySQL主庫讀取所有資料并應用,可以檢視資料複制的進度:

[[email protected]]# cat metadata/sbtest/.metadata

Version: 2
Binlog File: binlog.001496
Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723
Binlog Position: 789663343
Data Version: 2      

提醒:在這裡,我設定的是主從複制專用賬号。相對于普通的主從複制賬号,用于ClickHouse從庫的賬号至少還要加上隻讀權限,例如:

[[email protected]]> show grants for repl;
+--------------------------------------------------------------------------+
| Grants for repl@%                                                        |
+--------------------------------------------------------------------------+
| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO `repl`@`%` |
| GRANT SELECT ON `test`.* TO `repl`@`%`                                   |
+--------------------------------------------------------------------------+
      

ClickHouse的MaterializeMySQL引擎從MySQL複制資料的速度非常之快,甚至比MySQL原生的從庫還要更快,大家可以親身感受體驗下。

接下來,再在ClickHouse中建立一個業務賬号,以及一個服務監控賬号(用于ProxySQL對後端服務的監控)。編輯ClickHouse的配置檔案 users.xml,增加兩個使用者:

<app_user>
            <password>app_user</password>
            <networks incl="networks" replace="replace">
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
        </app_user>
        <monitor>
            <password>monitor</password>
            <networks incl="networks" replace="replace">
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
        </monitor>      

我隻設定了簡單密碼,也沒有修改其權限和quota模式,僅示範用,線上生産環境請自行調整以合規。

3.2 配置ProxySQL

配置mysql_servers表,增加兩條記錄,并使配置生效:

proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('0', '172.24.10.10', '3306');
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('1', '172.24.10.11', '9004');
proxysql> save mysql servers to disk; load mysql servers to run;      

其中,172.24.10.10:3306 是MySQL主庫,172.24.10.11:9004是ClickHouse從庫,9004端口是ClickHouse裡給MySQL用戶端連接配接專用的,可以用MySQL用戶端(協定)連接配接進來執行各種操作。

hostgroup分别為0和1,0用于讀寫組,1用于隻讀組。

配置mysql_users表,加入業務賬号和監控賬号:

proxysql> select username,password,active from mysql_users;
+-----------+----------+--------+
| username  | password | active |
+-----------+----------+--------+
| app_user  | app_user | 1      |
| monitor   | monitor  | 1      |
+-----------+----------+--------+

proxysql> save mysql users to disk; load mysql users to runtime;      

配置mysql_query_rules表,這個是關鍵,用于判斷将哪些SQL轉發到MySQL主庫,哪些轉發到ClickHouse:

proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;
+---------+--------+-------------------------+-----------------------+
| rule_id | active | match_pattern           | destination_hostgroup |
+---------+--------+-------------------------+-----------------------+
| 1       | 1      | ^SELECT.*\+CLICKHOUSE.* | 1                     |
+---------+--------+-------------------------+-----------------------+

proxysql>  save mysql query rules to disk; load mysql query rules to run;      

上述規則的意思是,當SELECT語句中包含 "+CLICKHOUSE" 關鍵字時,就會自動轉發到 ClickHouse 後端去處理,其餘的都發送到MySQL後端處理。例如下面這兩條SQL就會分别轉發到MySQL和ClickHouse後端:

#SQL #1
[[email protected]]> SELECT * FROM sbtest1 WHERE id=1;

#SQL #2
[[email protected]]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1;