基于开源应用快速构建HTAP系统(1)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 基于开源应用快速构建HTAP系统

1. 关于ClickHouse


企业里随着数据量的增加,以及日趋复杂的分析性业务需求,主要适用于OLTP场景的MySQL压力越来越大。多年前还能免费试用的infobright社区版也早就销声匿迹,infinidb被MariaDB收入囊中之后改头换面变成ColumnStore,但最近几年发展的平平淡淡,都不是理想的OLAP方案。

战斗民族出品的ClickHouse这几年则是风头正劲,国内用户也越来越多,几大公有云上也提供相应的产品服务,是目前市面上最快的OLAP数据库,性能远超Vertica、Sybase IQ等。关于ClickHouse的性能也可以关注我以前的一份测试报告:ClickHouse性能测试

ClickHouse对MySQL的兼容性也很好,除了很多语法相同或接近外,甚至还可以利用MySQL客户端(协议)连接到ClickHouse。

ClickHouse 可以挂载为 MySQL 的一个从库 ,先全量再增量的实时同步 MySQL 数据,这个功能可以说是今年最亮眼、最刚需的功能,基于它我们可以轻松的打造一套企业级解决方案,让 OLTP 和 OLAP 的融合从此不再头疼。目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 语句,及大部分常用的 DDL 操作。只需要安装最新版本的ClickHouse就可以体验到这个新特性了,不过该特性还处于experimental阶段,还在不断完善中。


2. 关于ProxySQL


ProxySQL是一款强大的中间件为MySQL的架构提供了有力的支持,支持传统主从复制、半同步复制、MGR、PXC等多种MySQL架构,还支持故障自动检测和切换、连接池、读写分离、日志记录、监控、集群部署等多项实用功能。当然了,ProxySQL最大的缺点是性能损失较大,预计至少有20% ~ 30%的性能损失,因此如果是在高性能场景下可能不太合适。不过可以考虑通过分库分表等方式降低单节点压力,充分发挥ProxySQL的集群功能。


3. 构建HTAP系统


ClickHouse和ProxySQL的安装本文不再赘述,直接开始动手构建HTAP系统。下面是整体架构示意图

image.png


3.1 将ClickHouse配置成为MySQL的从库


登入ClickHouse后,执行下面的命令启用新特性:

clickhouse :) SET allow_experimental_database_materialize_mysql = 1;



在ClickHouse中,创建一个复制通道,即可构建一个MySQL复制从库,例如:

clickhouse :) CREATE DATABASE test ENGINE = MaterializeMySQL('172.24.10.10:3306', 'test', 'repl', 'repl');

clickhouse :) use test;
clickhouse :) show tables;
┌─name─────┐
│ sbtest1 │
│ sbtest10 │
│ sbtest11 │
...
32 rows in set. Elapsed: 0.006 sec.



首次创建复制通道后,ClickHouse会快速从MySQL主库读取所有数据并应用,可以查看数据复制的进度:

[root@yejr.run]# cat metadata/sbtest/.metadata

Version: 2
Binlog File: binlog.001496
Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723
Binlog Position: 789663343
Data Version: 2



提醒:在这里,我设置的是主从复制专用账号。相对于普通的主从复制账号,用于ClickHouse从库的账号至少还要加上只读权限,例如:

[root@yejr.run]> show grants for repl;
+--------------------------------------------------------------------------+
| Grants for repl@% |
+--------------------------------------------------------------------------+
| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON . TO `repl`@`%` |
| GRANT SELECT ON `test`.* TO `repl`@`%` |
+--------------------------------------------------------------------------+



ClickHouse的MaterializeMySQL引擎从MySQL复制数据的速度非常之快,甚至比MySQL原生的从库还要更快,大家可以亲身感受体验下。

接下来,再在ClickHouse中创建一个业务账号,以及一个服务监控账号(用于ProxySQL对后端服务的监控)。编辑ClickHouse的配置文件 users.xml,增加两个用户:

      <app_user>
<password>app_user</password>
<networks incl="networks" replace="replace">
<ip>::/0</ip>
</networks>
<profile>default</profile>
<quota>default</quota>
</app_user>
<monitor>
<password>monitor</password>
<networks incl="networks" replace="replace">
<ip>::/0</ip>
</networks>
<profile>default</profile>
<quota>default</quota>
</monitor>


我只设置了简单密码,也没有修改其权限和quota模式,仅演示用,线上生产环境请自行调整以合规。


3.2 配置ProxySQL

配置mysql_servers表,增加两条记录,并使配置生效:

proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('0', '172.24.10.10', '3306');
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('1', '172.24.10.11', '9004');
proxysql> save mysql servers to disk; load mysql servers to run;



其中,172.24.10.10:3306 是MySQL主库,172.24.10.11:9004是ClickHouse从库,9004端口是ClickHouse里给MySQL客户端连接专用的,可以用MySQL客户端(协议)连接进来执行各种操作。

hostgroup分别为0和1,0用于读写组,1用于只读组

配置mysql_users表,加入业务账号和监控账号:

proxysql> select username,password,active from mysql_users;
+-----------+----------+--------+
| username | password | active |
+-----------+----------+--------+
| app_user | app_user | 1 |
| monitor | monitor | 1 |
+-----------+----------+--------+

proxysql> save mysql users to disk; load mysql users to runtime;



配置mysql_query_rules表,这个是关键,用于判断将哪些SQL转发到MySQL主库,哪些转发到ClickHouse:

proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;
+---------+--------+-------------------------+-----------------------+
| rule_id | active | match_pattern | destination_hostgroup |
+---------+--------+-------------------------+-----------------------+
| 1 | 1 | ^SELECT.\&#43;CLICKHOUSE. | 1 |
+---------+--------+-------------------------+-----------------------+

proxysql> save mysql query rules to disk; load mysql query rules to run;



上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:



#SQL #1
[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;

#SQL #2
[root@yejr.run]> SELECT /+CLICKHOUSE/ * FROM sbtest1 WHERE id=1;



            </div>
相关文章
|
3月前
|
数据采集 机器学习/深度学习 人工智能
YOLOv11浅浅解析:架构创新
YOLOv11是YOLO系列最新升级版,通过C3k2模块、SPPF优化和解耦检测头等创新,显著提升检测精度与速度,mAP提高2-5%,推理更快,支持多平台部署,适用于工业、安防、自动驾驶等场景。
|
3月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
5月前
|
SQL 人工智能 数据可视化
开源AI BI可视化工具-WrenAI
Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。
|
3月前
|
新能源
大盘择时:慎用固定均线!12年回测A股数据揭示择时策略的3大适应性缺陷
动量策略加入50日与200日均线择时后收益下降,主要因均线滞后、逻辑冲突及市场变化。解决方案包括动态调整择时参数、结合多指标验证、优化动量执行细节,提升策略适应性与收益表现。
|
3月前
|
机器学习/深度学习 新能源
趋势跟踪 + 大盘择时:牛市收益放大器的终极指南
在量化投资中,大盘择时策略常与其他策略结合使用,以提升收益并控制风险。常见搭配包括趋势跟踪、均值回归、行业轮动、多空对冲、资产配置等。每种策略适用于不同市场状态,如趋势跟踪用于单边行情,均值回归适用于震荡市,行业轮动结合经济周期调整配置方向,多空对冲和资产配置用于风险控制。此外,还可结合机器学习模型提升预测精度,或通过波动率交易优化入场时机。合理搭配可构建多层次投资体系,适应多变市场环境,实现稳健收益。需要注意择时信号的滞后性、策略一致性、模型过拟合风险及交易成本控制。
|
4月前
|
数据安全/隐私保护 容器 Go
开源IM即时通讯系统调研
Lumen IM 是一款企业级开源即时通讯工具,前端采用 Vue3 + Naive UI,后端基于 Go 语言,使用 WebSocket 协议。支持 Docker + Nginx 快速部署,适合私有化环境。功能包括文本、图片、文件消息,内置笔记、群聊及消息历史记录。界面美观、功能完善,适用于企业沟通、团队协作及开发者学习。提供前后端源码,便于快速搭建 IM 系统。
开源IM即时通讯系统调研
|
5月前
|
人工智能 自然语言处理 数据可视化
开源AI BI可视化工具-dataline
DataLine 是一个开源数据分析工具,支持自然语言交互,可快速生成图表与报告。数据默认存储本地,保障隐私安全,兼容 Postgres、MySQL、Excel 等多种数据源。提供可视化仪表盘、触发器及知识库功能,支持 Windows、Mac、Linux 平台运行,并可通过 Docker 部署,适合企业使用。
|
3月前
|
JavaScript 前端开发 安全
【逆向】Python 调用 JS 代码实战:使用 pyexecjs 与 Node.js 无缝衔接
本文介绍了如何使用 Python 的轻量级库 `pyexecjs` 调用 JavaScript 代码,并结合 Node.js 实现完整的执行流程。内容涵盖环境搭建、基本使用、常见问题解决方案及爬虫逆向分析中的实战技巧,帮助开发者在 Python 中高效处理 JS 逻辑。
|
5月前
|
数据安全/隐私保护
项目介绍:基于ChartScanAI的crypto currency决策系统
ChartScanAI 是一个基于 GitHub 的增强型加密货币交易策略工具,结合 RSI、EMA、ADX 和 OBV 等技术指标,通过动态权重分配与蜡烛图模式识别,实现多周期(1h、4h、1d、1w)交易信号生成。策略内置市场状态判断、信号加权评分、风险管理(ATR 止损止盈)及仓位控制逻辑,旨在提升交易适应性与收益风险比。
|
监控 算法 数据挖掘
项目介绍:RQAlpha量化框架
RQAlpha是Python算法回测与交易框架,支持多证券类型,提供数据获取、策略开发、回测、实盘模拟及数据分析等全套解决方案,具备灵活配置、易用性及强大扩展性。
项目介绍:RQAlpha量化框架