基于开源应用快速构建HTAP系统(2)

简介: 基于开源应用快速构建HTAP系统

上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:



#SQL #1
[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;
#SQL #2
[root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1; 



第二条SQL利用MySQL的注释语法巧妙地实现规则HINT。

查询 stats_mysql_query_digest 表的结果予以确认:


roxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest;
+-----------+------------+----------+--------------------+----------------------------------+
| hostgroup | schemaname | username | digest             | digest_text                      |
+-----------+------------+----------+--------------------+----------------------------------+
| 0         | sbtest     | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
| 1         | sbtest     | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
+-----------+------------+----------+--------------------+----------------------------------+



可以看到,两条SQL看起来一样,但分别转发到不同的hostgroup了。

最后配置ProxySQL的监控服务(可选,非必须):


proxysql> set mysql-monitor_enabled="true"; 
proxysql> set mysql-monitor_username="monitor";
proxysql> set mysql-monitor_password="monitor";
proxysql> save mysql variables to disk; load mysql variables to runtime;

至此,一个全部基于开源应用的简易HTAP系统就构建好了。

4. 性能对比

在这里,我选用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。

编译完成后先是利用ssb-dbgen生成测试数据(指定参数 -s 50):

./dbgen -s 50 -T c &
./dbgen -s 50 -T l &
./dbgen -s 50 -T p &
./dbgen -s 50 -T s &
./dbgen -s 50 -T d &

再创建几个测试库表,自行修改建表的DDL以适应MySQL语法。而后导入测试数据,最后根据文档并生成 lineorder_flat 表。

[root@yejr.run]> show table status;
+----------------+--------+---------+------------+-----------+----------------+--------------+
| Name           | Engine | Version | Row_format | Rows      | Avg_row_length | Data_length  |
+----------------+--------+---------+------------+-----------+----------------+--------------+
| customer       | InnoDB |      10 | Dynamic    |   1378209 |            120 |    166363136 |
| lineorder      | InnoDB |      10 | Dynamic    | 297927870 |            100 |  29871833088 |
| lineorder_flat | InnoDB |      10 | Dynamic    | 292584926 |            430 | 125952851968 |
| part           | InnoDB |      10 | Dynamic    |   1192880 |            111 |    132792320 |
| supplier       | InnoDB |      10 | Dynamic    |     99730 |            110 |     11026432 |
+----------------+--------+---------+------------+-----------+----------------+--------------+

数据全部加载完毕后,再在ClickHouse中创建MaterializeMySQL复制通道:

clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL('172.24.10.10:3380', 'ssb', 'repl', 'repl');


数据量比较大,耐心静待它复制完成即可。

然后连接 ProxySQL,先简单执行大表count(*),观察耗时的不同:

#直接执行count(*),会转发到后端 MySQL 实例
[root@yejr.run]> select count(*) from lineorder_flat;
+-----------+
| count(*)  |
+-----------+
| 300005811 |
+-----------+
1 row in set (3 min 2.14 sec)
#加上HINT规则,会转发到后端 ClickHouse 实例
[root@yejr.run]> select /*+CLICKHOUSE*/ count(*) from lineorder_flat;
+-----------+
| count(*)  |
+-----------+
| 300005811 |
+-----------+
1 row in set (5.67 sec)

光是 count(*) 就差了好多倍。

再选取其中前4个SQL测试,记录的耗时如下:

Query MySQL ClickHouse(从库) ClickHouse(原生)
Q1.1 308.388684 0.149 0.107
Q1.2 320.373203 0.280 0.027
Q1.3 279.673361 0.346 0.030
Q2.1 286.451062 1.246 0.489

很明显,直接在MySQL上查询的效率实在太低了,而作为从库的MaterializeMySQL和ClickHouse原生的MergeTree表虽然也有一定差距,但相差也没那么大了,还算是很快的。

4. 其他说明

  • ClickHouse的MaterializeMySQL中不支持 create like 语法。例如执行 create table db2.a like db1.a,其中db1是要复制到ClickHouse的,而db2是留在MySQL端,即便这样也会导致ClickHouse端复制报错,需要重启才行。
  • ClickHouse的MaterializeMySQL中也不支持函数索引
  • 偶尔发现ProxySQL的监控模块连接到ClickHouse后,会发送 SET wait_timeout=N 命令,会导致ClickHouse报错,但不影响正常使用。重启ProxySQL,或者重启监控开关都可以解决

Enjoy it :)

相关文章
|
消息中间件 弹性计算 Java
Rocketmq-spring入门与实践
本场景带您体验如何在 Spring 生态中优雅地使用 Apache RocketMQ,感受最受欢迎业务开发框架与最受欢迎消息平台结合的魅力。
|
人工智能 搜索推荐 异构计算
|
监控 供应链 搜索推荐
不同行业DTC业务模型的差异化分析
DTC营销模式通过直接面向消费者,整合产业链、打造极致单品、培养超级用户等策略,实现利润快速增长。本文深入探讨DTC的定义、特点、优势、适用场景及实施策略,强调数据驱动和品牌与消费者紧密连接的重要性。
587 14
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
301 5
|
人工智能 搜索推荐 安全
盘点几款AI 赋能的 CRM 系统
在数字化时代,客户关系管理系统(CRM)成为企业提升竞争力、优化销售及增强客户满意度的关键工具。尤其随着人工智能(AI)技术的发展,AI功能强大的CRM系统为企业带来了前所未有的机遇。未来CRM系统将更加智能化、个性化,深度融合大数据、物联网等技术,并加强数据安全;典型如销售易CRM、Salesforce、Zoho CRM和HubSpot CRM,它们在销售管理、客户服务及营销自动化等方面展现了巨大潜力,为企业创造了更多价值。
|
存储 前端开发 Java
基于java考研线上自习室 App 的设计与实现附完整代码
基于java考研线上自习室 App 的设计与实现附完整代码
837 0
基于java考研线上自习室 App 的设计与实现附完整代码
|
Unix 信息无障碍 数据安全/隐私保护
粘滞键是什么意思有什么作用(粘滞键的设置和取消关闭)
粘滞键是什么意思有什么作用(粘滞键的设置和取消关闭)
2711 0
|
XML 编解码 机器人
Freeswitch在呼叫中心系统应用
一.freeswitch是什么 freeswitch是一款基于sip的开源电话软交换平台,具有很强的扩展性和稳定性,能实现电话语音、ivr、电话会议、视频会议、机器人、短信等核心语音应用;因为支持丰富的语音、视频编码使得几乎能兼容市面上绝大部分的sip软交换平台;
2700 0
|
存储 XML Java
Spring源码(一)-Bean的定义-BeanDefinition
在 Spring 容器中,我们广泛使用的是一个一个的 Bean,那在Spring 中,我们可以如何去定义一个Bean?
1157 1
|
边缘计算 城市大脑 人工智能
智慧城市当中的新型测试手段: 赛马机制、AB测试和混沌工程
随着智慧城市如火如荼地建设,城市管理的智能化程度越来越高,诸如城市大脑、边缘计算、数字孪生等新技术的融入,给城市管理者带来了新的工具,也为市民的生活带来了极大的便利。在城市智能化建设过程中,总不可或缺的涌现多种新技术新思路。这些用于城市治理领域的新技术、新思路,和互联网领域的新技术有着异曲同工之妙,为智慧城市的评测提供了有利的武器。
1612 2