基于开源应用快速构建HTAP系统(2)

简介: 基于开源应用快速构建HTAP系统

上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:



#SQL #1
[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;

#SQL #2
[root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1; 



第二条SQL利用MySQL的注释语法巧妙地实现规则HINT。

查询 stats_mysql_query_digest 表的结果予以确认:


roxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest;

+-----------+------------+----------+--------------------+----------------------------------+
| hostgroup | schemaname | username | digest | digest_text |
+-----------+------------+----------+--------------------+----------------------------------+
| 0 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
| 1 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
+-----------+------------+----------+--------------------+----------------------------------+



可以看到,两条SQL看起来一样,但分别转发到不同的hostgroup了。

最后配置ProxySQL的监控服务(可选,非必须):


proxysql> set mysql-monitor_enabled="true"; 
proxysql> set mysql-monitor_username="monitor";
proxysql> set mysql-monitor_password="monitor";

proxysql> save mysql variables to disk; load mysql variables to runtime;

至此,一个全部基于开源应用的简易HTAP系统就构建好了。

4. 性能对比

在这里,我选用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。

编译完成后先是利用ssb-dbgen生成测试数据(指定参数 -s 50):

./dbgen -s 50 -T c &
./dbgen -s 50 -T l &
./dbgen -s 50 -T p &
./dbgen -s 50 -T s &
./dbgen -s 50 -T d &

再创建几个测试库表,自行修改建表的DDL以适应MySQL语法。而后导入测试数据,最后根据文档并生成 lineorder_flat 表。

[root@yejr.run]> show table status;
+----------------+--------+---------+------------+-----------+----------------+--------------+
| Name | Engine | Version | Row_format | Rows | Avg_row_length | Data_length |
+----------------+--------+---------+------------+-----------+----------------+--------------+
| customer | InnoDB | 10 | Dynamic | 1378209 | 120 | 166363136 |
| lineorder | InnoDB | 10 | Dynamic | 297927870 | 100 | 29871833088 |
| lineorder_flat | InnoDB | 10 | Dynamic | 292584926 | 430 | 125952851968 |
| part | InnoDB | 10 | Dynamic | 1192880 | 111 | 132792320 |
| supplier | InnoDB | 10 | Dynamic | 99730 | 110 | 11026432 |
+----------------+--------+---------+------------+-----------+----------------+--------------+

数据全部加载完毕后,再在ClickHouse中创建MaterializeMySQL复制通道:

clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL('172.24.10.10:3380', 'ssb', 'repl', 'repl');


数据量比较大,耐心静待它复制完成即可。

然后连接 ProxySQL,先简单执行大表count(),观察耗时的不同:

#直接执行count(),会转发到后端 MySQL 实例
[root@yejr.run]> select count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row in set (3 min 2.14 sec)

#加上HINT规则,会转发到后端 ClickHouse 实例
[root@yejr.run]> select /+CLICKHOUSE/ count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row in set (5.67 sec)

光是 count(*) 就差了好多倍。

再选取其中前4个SQL测试,记录的耗时如下:

Query MySQL ClickHouse(从库) ClickHouse(原生)
Q1.1 308.388684 0.149 0.107
Q1.2 320.373203 0.280 0.027
Q1.3 279.673361 0.346 0.030
Q2.1 286.451062 1.246 0.489

很明显,直接在MySQL上查询的效率实在太低了,而作为从库的MaterializeMySQL和ClickHouse原生的MergeTree表虽然也有一定差距,但相差也没那么大了,还算是很快的。

4. 其他说明

  • ClickHouse的MaterializeMySQL中不支持 create like 语法。例如执行 create table db2.a like db1.a,其中db1是要复制到ClickHouse的,而db2是留在MySQL端,即便这样也会导致ClickHouse端复制报错,需要重启才行。
  • ClickHouse的MaterializeMySQL中也不支持函数索引
  • 偶尔发现ProxySQL的监控模块连接到ClickHouse后,会发送 SET wait_timeout=N 命令,会导致ClickHouse报错,但不影响正常使用。重启ProxySQL,或者重启监控开关都可以解决

Enjoy it :)

            </div>
相关文章
|
2天前
|
数据采集 人工智能 安全
|
11天前
|
云安全 监控 安全
|
3天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1023 151
|
3天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1720 9
|
8天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
662 152
|
10天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
626 14
|
5天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
385 4