大数据-143 - ClickHouse 集群 SQL 超详细实践记录！（一）-阿里云开发者社区

大数据-143 - ClickHouse 集群 SQL 超详细实践记录！（一）

2024-10-14 619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据-143 - ClickHouse 集群 SQL 超详细实践记录！（一）

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）

HDFS（已更完）

MapReduce（已更完）

Hive（已更完）

Flume（已更完）

Sqoop（已更完）

Zookeeper（已更完）

HBase（已更完）

Redis （已更完）

Kafka（已更完）

Spark（已更完）

Flink（已更完）

ClickHouse（正在更新···）

章节内容

上节我们完成了如下的内容：

副本和分片

Distributed 部分

编码实际案例测试

基本介绍

ClickHouse 是一种用于 OLAP（在线分析处理）的列式数据库，因其高速数据处理能力在大数据分析中备受青睐。ClickHouse 的 SQL 语法与标准 SQL 类似，但由于其专注于分析场景，有一些特殊的扩展。ClickHouse 默认不支持直接 DELETE 或 UPDATE 操作，但可以通过分区管理和合并机制间接清理数据。ClickHouse 提供了很多专门为高效分析而设计的功能。ClickHouse 提供了丰富的聚合函数，如 sum()、avg()、min()、max()、count()。

基本 SQL 语法

ClickHouse 的 SQL 语法与标准 SQL 类似，但由于其专注于分析场景，有一些特殊的扩展。

创建表的时候：

CREATE TABLE table_name (
    column1 DataType,
    column2 DataType,
    ...
) ENGINE = MergeTree()
ORDER BY (primary_key_columns);

ENGINE：表引擎，最常用的是 MergeTree 系列。
ORDER BY：必须指定排序键，支持对大数据集高效查询。
PARTITION BY：按列进行分区（可选）。
SAMPLE BY：用于大数据量下的采样查询（可选）。

删除或清理表数据的时候：

ClickHouse 默认不支持直接 DELETE 或 UPDATE 操作，但可以通过分区管理和合并机制间接清理数据。

ALTER TABLE table_name DROP PARTITION partition_expr;

特殊功能

聚合函数

ClickHouse 提供了丰富的聚合函数，如 sum()、avg()、min()、max()、count()。此外，还有以下特殊聚合函数：

SELECT uniqExact(column) FROM table_name; -- 精确去重计数
SELECT quantiles(0.5, 0.9)(column) FROM table_name; -- 分位数计算

窗口函数

ClickHouse 支持窗口函数，但语法略有不同。常见窗口函数有 row_number()、rank() 等：

SELECT column, rowNumber() OVER (PARTITION BY partition_column ORDER BY sort_column) 
FROM table_name;

数组和嵌套类型

ClickHouse 支持数组和嵌套类型，适合处理复杂的数据结构：

SELECT arrayJoin(array) FROM table_name;

arrayJoin：将数组展开为多行

MergeTree 引擎

MergeTree 是 ClickHouse 最常用的引擎之一，具备排序、索引和分区的特性，能够高效处理海量数据。

ORDER BY：定义主键，数据按照该字段排序。

PRIMARY KEY：可以和 ORDER BY 一致，用于快速定位。

PARTITION BY：用于数据按逻辑分片，减少查询范围。

TTL：设置数据过期时间，自动清理历史数据。

基本状况

目前我是ClickHouse的集群环境：

h121.wzk.icu

h122.wzk.icu

h123.wzk.icu

建立连接

我们随机找一台建立链接

clickhouse-client -m --host h121.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu

新建库

CREATE DATABASE mydatabase;
• 1

执行结果如下图所示：

可以看到对应的路径如下所示：

cd /var/lib/clickhouse/data
ls
• 1
• 2

执行结果如下图，可以看到我们刚才创建的数据库：

查看数据库

SHOW DATABASES;
• 1

运行结果如下图：

新建表

# 方式1
CREATE TABLE my_table(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory;

# 方式2
CREATE TABLE mydatabase.my_table(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory;

# 方式3
CREATE TABLE mydatabase.my_table_2(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory AS SELECT * FROM mydatabase.my_table;

执行结果如下图所示：

查表结构

DESC my_table;
• 1

执行结果如下图：

插入数据

INSERT INTO my_table VALUES ('wzk', '123', now());
• 1

执行的结果如下所示：

临时表

CREATE TABLE tmp_v1 (
  title String,
  create_time DateTime
) ENGINE = Memory;

如果临时表与正常表名字相同，临时表优先。

临时表的引擎只能是Memory，数据是临时的，断点数据就没了。

更多的是在ClickHouse内部，是数据在集群间传播度的载体。

分区表

创建新表

CREATE TABLE partition_v1 (
  `id` String,
  `url` String,
  `eventTime` Date
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(eventTime)
ORDER BY id;

执行结果如下所示：

只有合并树（MergeTree）家族的表引擎支持分区表，可以利用分区表，做定位查询，缩小查询范围。分区字段不易设置的太小。

插入数据

INSERT INTO partition_v1 (id, url, eventTime) VALUES
('1', 'http://example.com/page1', '2024-01-01'),
('2', 'http://example.com/page2', '2024-01-15'),
('3', 'http://example.com/page3', '2024-02-01'),
('4', 'http://example.com/page4', '2024-02-15'),
('5', 'http://example.com/page5', '2024-03-01'),
('6', 'http://example.com/page6', '2024-03-15');

执行结果如下图所示：

大数据-143 - ClickHouse 集群 SQL 超详细实践记录！（一）

特殊功能

聚合函数

数组和嵌套类型

新建库

查看数据库

新建表

查表结构

插入数据

临时表

分区表

创建新表

插入数据

接下篇：https://developer.aliyun.com/article/1623012

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据-143 - ClickHouse 集群 SQL 超详细实践记录！（一）

特殊功能

聚合函数

数组和嵌套类型

新建库

查看数据库

新建表

查表结构

插入数据

临时表

分区表

创建新表

插入数据

接下篇：https://developer.aliyun.com/article/1623012

热门文章

最新文章

相关课程

相关电子书

推荐镜像