文档备案控制台

开发者社区人工智能文章正文

Clickhouse在画像场景如何快速计算人群的年龄分布

2022-04-24 2012

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在画像场景场景中，对不同年龄段的人群进行计数是一个常见的操作，如何使用Clickhouse快速的计算出人群的年龄分布情况呢？

背景

Clickhouse是一个性能强悍的OLAP系统，经常被用于用户画像等场景。

在用户画像场景场景中，经常需要对不同年龄段的人群进行计数。比如需要对购买啤酒的男士的年龄分布情况进行分析，而年龄常常需要进行分段，比如划分为18岁以下，18-25岁，25-35岁等年龄段。这种情况下，如何用EMR-Clickhouse优雅的计算出结果呢？

示例

首先模拟一张表，uid代表账户，name代表名字，age代表年龄，为了方便，其他字段省略。

CREATETABLE default.sample(    `uid` String,    `name` String,    `age` UInt64
)ENGINE = MergeTree()ORDERBY uid

然后模拟一些数据，插入表中。

insertinto sample values('ab2','husky',14),('ab1','sam',25),('a4b','jim',19),('44b','jane',29),('pa4b','dany',35),('pgb','james',56),('ppb','leo',76)

通过使用 roundDown(x, [array]) 函数进行查询。

SELECTcount(uid)AS counts,    tmp_age AS age
FROM(SELECT        roundDown(age,[0,18,25,35,45,55,65,75,85,120])AS tmp_age,        uid
FROM sample
)GROUPBY age
ORDERBY age ASC

可以看到，查询结果已经分类为0-18岁、18-25岁、25-35岁等区间，可以直接使用工具进行报表展示。

┌─counts─┬─age─┐
│      1 │   0 │
│      1 │  18 │
│      2 │  25 │
│      1 │  35 │
│      1 │  55 │
│      1 │  75 │
└────────┴─────┘

相关资料

可以通过官网看到roundDown相关的使用介绍。

roundAge也具有相似的效果，但是并不灵活。

https://clickhouse.com/docs/en/sql-reference/functions/rounding-functions/

钉钉扫描下方二维码加入EMR-Clickhouse产品交流群一起参与讨论~

文章标签：

云数据库 ClickHouse

搜索推荐

BI

OLAP

关键词：

云数据库 ClickHouse场景

云数据库 ClickHouse人群

云数据库 ClickHouse计算

曦乐

目录

相关文章

SelectDB

|

9月前

|

存储数据挖掘 Apache

浩瀚深度：从 ClickHouse 到 Doris，支撑单表 13PB、534 万亿行的超大规模数据分析场景

浩瀚深度旗下企业级大数据平台选择 Apache Doris 作为核心数据库解决方案，目前已在全国范围内十余个生产环境中稳步运行，其中最大规模集群部署于 117 个高性能服务器节点，单表原始数据量超 13PB，行数突破 534 万亿，日均导入数据约 145TB，节假日峰值达 158TB，是目前已知国内最大单表。

SelectDB

1643 10 10

浩瀚深度：从 ClickHouse 到 Doris，支撑单表 13PB、534 万亿行的超大规模数据分析场景

SelectDB

|

存储运维监控

从 ClickHouse 到 Apache Doris：在网易云音乐日增万亿日志数据场景下的落地

日志数据已成为企业洞察系统状态、监控网络安全及分析业务动态的宝贵资源。网易云音乐引入 Apache Doris 作为日志库新方案，替换了 ClickHouse。解决了 ClickHouse 运维复杂、不支持倒排索引的问题。目前已经稳定运行 3 个季度，规模达到 50 台服务器，倒排索引将全文检索性能提升7倍，2PB 数据，每天新增日志量超过万亿条，峰值写入吞吐 6GB/s 。

SelectDB

1106 5 5

从 ClickHouse 到 Apache Doris：在网易云音乐日增万亿日志数据场景下的落地

游客nsyhaoxcmeiq6

|

SQL 存储 OLAP

ClickHouse 在什么场景下才管用？

ClickHouse 是一款以速度快著称的分析型数据库，尤其在列式宽表遍历方面表现出色。然而，面对复杂查询和关联运算时，ClickHouse 的性能急剧下降，甚至无法执行某些任务。相比之下，esProc SPL 通过更简洁的 SPL 语法和强大的优化能力，在各种复杂场景下均表现出色，全面超越 ClickHouse。实际案例显示，esProc SPL 在处理大规模数据时，性能提升可达数十倍。

游客nsyhaoxcmeiq6

543 2 2

张飞的猪

|

存储分布式计算 Hadoop

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

ClickHouse是一款高性能的列式存储OLAP数据库，由俄罗斯的Yandex公司开发，用于在线分析处理（OLAP）。它提供秒级大数据查询，适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而，它不支持事务，不适合OLTP操作。相比Hadoop生态中的查询引擎，ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面，包括安装、表引擎和使用场景。

张飞的猪

2946 2 2

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

SelectDB

|

SQL 分布式计算测试技术

从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris：有赞业务场景下性能测试与迁移验证

从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris 迁移实践：有赞查询提速近 10 倍，OLAP 分析更实时高效！

SelectDB

2538 2 2

从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris：有赞业务场景下性能测试与迁移验证

叶落无声风吹雨

|

存储搜索推荐关系型数据库

55.【clickhouse】ClickHouse从入门到放弃-概念场景

【clickhouse】ClickHouse从入门到放弃-概念场景

叶落无声风吹雨

1012 1 2

55.【clickhouse】ClickHouse从入门到放弃-概念场景

像素旅人

|

SQL 分布式计算测试技术

从 Clickhouse 到 Apache Doris：有赞业务场景下性能测试与迁移验证

当前，电商运营的主要痛点不仅来自多变的市场和客户需求，也受困于碎片化用户触达等带来的竞争与挑战。为了深度挖掘用户价值、培养用户忠诚度、实现业绩增长，有赞为商家搭建了全方位 OLAP 分析系统，提供实时与离线分析报表、智能营销与人群圈选等 SaaS 服务。本文将详细介绍有赞从 Clickhouse 至 Apache Doris 的迁移规划和性能对比测试实践，分享如何基于 Apache Doris 统一 OLAP 技术栈，并满足庞大数据体量下的实时分析与极速查询，最终有赞在多个场景下实现查询平均提速 200% 。

像素旅人

733 0 0

-编程工程师-

|

消息中间件 SQL 搜索推荐

干货｜从 ClickHouse 到 ByteHouse：实时数据分析场景下的优化实践

干货｜从 ClickHouse 到 ByteHouse：实时数据分析场景下的优化实践

-编程工程师-

724 0 0

曦乐

|

搜索推荐 OLAP

Clickhouse在画像场景如何对人群分布情况进行N等分

Clickhouse是一个性能强悍的OLAP系统，经常被用于用户画像等场景。在画像场景中，经常需要按照某一指标对人群进行N等分，然后对每个人根据指标所处的范围打上对应标签。本文主要介绍如何通过Clickhouse对人群分布情况进行N等分。

曦乐

704 0 0

Clickhouse在画像场景如何对人群分布情况进行N等分

stromal

|

存储 SQL JSON

ClickHouse：抓住你的每一个目标用户，人群圈选业务的大杀器

随着数据时代的发展，各行各业数据平台的体量越来越大，用户个性化运营的诉求也越来越突出，用户标签系统，做为个性化千人千面运营的基础服务，应运而生。如今，几乎所有行业（如互联网、游戏、教育等）都有实时精准营销的需求。针对复杂条件过滤的场景，ClickHouse对多条件筛选流程做出优化，扫描的数据量更小，性能也较ES而言更高效。

stromal

6640 0 0

ClickHouse：抓住你的每一个目标用户，人群圈选业务的大杀器

热门文章

最新文章

阿里云DTS踩坑经验分享系列｜如何使用DTS进行MySQL->ClickHouse同步

clickhouse SQL优化

云数据库ClickHouse二级索引-最佳实践

ClickHouse物化视图

阿里云 E-MapReduce ClickHouse 操作指南 02期 — 快速入门

ClickHouse实时数据处理实战：构建流式分析应用

号外号外！ClickHouse企业版正式商业化啦！

NineData：从Kafka到ClickHouse的数据同步解决方案

Elasticsearch VS ClickHouse

大数据技术之Clickhouse---入门篇---数据类型、表引擎

从 ClickHouse 到 StarRocks 存算分离：携程 UBT 架构升级实践

探究ClickHouse数据库的Mutation机制

MySQL 到 ClickHouse 明细分析链路改造：数据校验、补偿与延迟治理

浩瀚深度：从 ClickHouse 到 Doris，支撑单表 13PB、534 万亿行的超大规模数据分析场景

ClickHouse分布式数据库动态伸缩（弹性扩缩容）的实现

万能ck提取登录软件，京东贴吧淘宝拼多多cookie提取工具，python框架分享

抖音ck提取工具，快手小红书微博哔哩哔哩cookie提取登录软件，python框架

MySQL与Clickhouse数据库：探讨日期和时间的加法运算。

可观测性方案怎么选？SelectDB vs Elasticsearch vs ClickHouse

ClickHouse 应用剖析：设计理念、机制与实践

相关课程

更多

ClickHouse基础课程

相关电子书

更多

阿里云 ClickHouse 企业版技术白皮书

ClickHouse在手淘流量分析应用实践Jason Xu

云数据库clickhouse最佳实践

推荐镜像

更多

clickhouse

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎