ClickHouse性能测试

简介: ClickHouse性能测试

ClickHouse简介

ClickHouse是战斗民族Yandex公司出品的OLAP开源数据库,简称CH,也有人简称CK,是目前市面上最快的OLAP数据库。性能远超Vertica、Sybase IQ等。

CH具有以下几个特点:

  1. 列式存储,因此数据压缩比高。
  2. 向量计算,且支持多核CPU并行计算,并且执行每个SQL时都力求榨干CPU性能。
  3. 基于Shared nothing架构,支持分布式方案。
  4. 支持主从复制架构。
  5. 兼容大部分SQL语法,其语法和MySQL尤其相近。
  6. 数据实时更新。
  7. 不支持事务,不适合高频更新数据。
  8. 建议多用宽表,但不建议总是查询整数据行中的所有列。

简言之,如果你有以下业务场景,可以考虑用CH:

  1. 海量数据,但又不希望单节点的存储空间消耗太高。
  2. 宽表,为了业务方便,可能会把很多相关数据列都整合到一个表里。
  3. 基于SQL的查询方式,提高程序的适用性和可移植性。

性能测试

我选用了CH官方提供的一个测试方案:SSBM (Star Schema Benchmark)。

测试机配置:

腾讯云CVM主机
- 标准型S5机型
- 4核16G
- 外挂500G SSD云硬盘

数据盘采用xfs文件系统,ioscheduler采用deadline方式:

[root@yejr.me]# cat /etc/fstab

/dev/vdb /data xfs defaults,noatime,nodiratime,nobarrier 0 0

[root@yejr.me]# cat /sys/block/vdb/queue/scheduler
[mq-deadline] kyber none

生成测试数据。

# 下载SSBM工具
[root@yejr.me]# git clone https://github.com/vadimtk/ssb-dbgen.git
[root@yejr.me]# cd ssb-dbgen
[root@yejr.me]# make

# 生成测试数据,机器性能和磁盘有限,所以指定 -s 100
[root@yejr.me]# ./dbgen -s 100 -T c
[root@yejr.me]# ./dbgen -s 100 -T p
[root@yejr.me]# ./dbgen -s 100 -T s
[root@yejr.me]# ./dbgen -s 100 -T l

[root@yejr.me]# wc -l *tbl
3000000 customer.tbl
1400000 part.tbl
200000 supplier.tbl

[root@yejr.me]# ls -l *tbl
-rw-r--r-- 1 root root 331529327 Mar 28 21:17 customer.tbl
-rw-r--r-- 1 root root 140642413 Mar 28 21:17 part.tbl
-rw-r--r-- 1 root root 19462852 Mar 28 21:17 supplier.tbl

创建测试表,根据CH官网提供的建表DDL直接创建即可,参考这里:Star Schema Benchmarkhttps://clickhouse.tech/docs/en/getting_started/example_datasets/star_schema/ )。

导入数据。

[root@yejr.me]# clickhouse-client --query "INSERT INTO customer FORMAT CSV" < customer.tbl
[root@yejr.me]# clickhouse-client --query "INSERT INTO part FORMAT CSV" < part.tbl
[root@yejr.me]# clickhouse-client --query "INSERT INTO supplier FORMAT CSV" < supplier.tbl
[root@yejr.me]# clickhouse-client --query "INSERT INTO lineorder FORMAT CSV" < lineorder.tbl

这是导入测试数据的耗时以及导完后表空间大小的数据。

表数据量 耗时(秒) tbl文件大小 表空间大小
customer 3,000,000 2.923 317M 116M
part 1,400,000 1.573 135M 25M
supplier 200,000 0.305 19M 7.7M
lineorder 600,037,902 837.288 67G 17G
lineorder_flat 600,037,902 2318.616
54G

只看最大的lineorder表,对tbl文件的压缩比可以达到4:1,如果是相对常规的OLTP数据库,其压缩比显然还要更高。

运行SSBM的几个标准查询耗时

SQL 耗时(秒) 扫描行数(10万) 返回行数
Q1.1 2.123 91.01 1
Q1.2 0.320 7.75 1
Q1.3 0.053 1.81 1
Q2.1 17.979 600.04 280
Q2.2 3.625 600.04 56
Q2.3 3.263 600.04 7
Q3.1 6.906 546.67 150
Q3.2 5.330 546.67 600
Q3.3 3.666 546.67 24
Q3.4 0.058 7.76 4
Q4.1 10.110 600.04 35
Q4.2 1.928 144.42 100
Q4.3 1.373 144.42 800

每次扫描这么多数据量,但这些统计分析为主的SQL查询耗时却并不大,足见CH的计算性能了。

今天先简单介绍到这里,以后有机会再继续分享。

            </div>
相关文章
|
存储 Python
INI文件介绍与Python处理指南
INI文件介绍与Python处理指南
|
10月前
|
知识图谱
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
331 12
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
|
10月前
|
机器学习/深度学习 自然语言处理 API
阿里云 DeepSeek-R1 满血版解决方案评测
阿里云的 **DeepSeek-R1 满血版** 是一款基于深度学习的推理模型,专为数学、代码和自然语言处理等复杂任务设计。它在少量标注数据下显著提升推理能力,支持快速部署,操作简便。用户可通过阿里云平台轻松调用 API,无需编程技能,几分钟内完成配置。该解决方案提供高效推理、灵活部署和低成本起步的优势,特别适合初创企业和技术团队使用。评测显示其推理结果精准、响应迅速且易于集成,性价比高,是提升推理能力的理想选择。
|
供应链 数据挖掘 智能硬件
2024年如何做好跨境电商
2024年跨境电商成功之道:深入市场调研与选品,建立可靠供应链,选择合适平台并优化店铺运营,合规经营,重视数据分析与优化,加强人才培养与团队建设。通过这些策略,提升竞争力,实现业务增长。
|
人工智能 云计算 Anolis
装机量破800万台!开源操作系统龙蜥全新发布官方正式版
第二届龙蜥操作系统大会在京举办。龙蜥社区作为国内领先的开源操作系统根社区,推出的Anolis OS及衍生版装机量已突破800万套,并在会上发布Anolis OS 23 官方正式版,全面兼容国内外主流CPU、GPU架构。并推出三大开源社区计划,推动开源操作系统实现商业化的良性循环发展。
377 4
|
数据采集 缓存 安全
2024年最佳http 代理 IP选择及其价格分析
2024年,多家服务商如快代理、123Proxy、巨量代理、IPIDEA等提供不同类型的代理IP,以满足数据采集、跨境电商等多种需求。
2024年最佳http 代理 IP选择及其价格分析
|
Rust 安全 云计算
Rust语言入门:安全性与并发性的完美结合
【10月更文挑战第25天】Rust 是一种系统级编程语言,以其独特的安全性和并发性保障而著称。它提供了与 C 和 C++ 相当的性能,同时确保内存安全,避免了常见的安全问题。Rust 的所有权系统通过编译时检查保证内存安全,其零成本抽象设计使得抽象不会带来额外的性能开销。Rust 还提供了强大的并发编程工具,如线程、消息传递和原子操作,确保了数据竞争的编译时检测。这些特性使 Rust 成为编写高效、安全并发代码的理想选择。
336 0
|
存储 人工智能 分布式计算
阿里云智能大数据演进
本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024·北京站:大数据·大模型.双核时代实录整理而成
|
Java API Maven
使用 Smart-doc 记录 Spring REST API
使用 Smart-doc 记录 Spring REST API
402 0