文档备案控制台

开发者社区问答正文

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

展开

收起

芯在这 2021-12-11 22:09:08 795 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数，即该字段的 distinct 或者 unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是：可配置的精度，用来控制内存的使用（更精确＝更多内存）；小的数据集精度是非常高的；我们可以通过配置参数，来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值，内存使用量只与你配置的精确度相关。

2021-12-11 22:09:23

赞同展开评论

问答分类：

检索分析服务 Elasticsearch版云原生大数据计算服务 MaxCompute

问答标签：

检索分析服务 Elasticsearch版聚合 elasticsearch云原生大数据计算服务 MaxCompute 检索分析服务 Elasticsearch版大数据云原生大数据计算服务 MaxCompute聚合

问答地址：

开发者社区 > 云计算 > 问答

相关问答

ODPS的string类型同步到Elasticsearch的string里报脏数据如何处理

216

1

0

Elasticsearch es搜索结果20000条对前5000条做聚合求sum dsl语句怎么写？

438

2

0

Elasticsearch高并发大数据量场景下Rollover进行容量管理还是写交业务进行数据归档？

498

0

0

DataWorks中我们使用odps同步elasticsearch 数据，字段在es上是时间戳字符？

445

3

0

在Elasticsearch中es按字段去重聚合有什么方式可以获取精确的不重复总数吗？

331

1

0

DataWorks中Elasticsearch数据同步到odps，同步的时候一直有数据写入怎么办？

238

1

0

MaxCompute中如何使用WM_CONCAT 函数按照某一字段进行排序聚合

567

1

0

DataWorks数据同步Elasticsearch同步odps数据量不符合预期

166

1

0

大数据计算MaxCompute有计划做聚合表吗?

175

2

0

大数据计算MaxCompute这个成本分析会根据作业id聚合吗？还是每次执行都有一条记录？

187

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

阿里云服务器多少钱一年？学生用的配置价格

相关文章

千亿级 AI 搜索的效能实战：从混合检索到 Agentic RAG 的三年实战

破解 AI 搜索“效果与成本”双重困境：阿里云 Elasticsearch 向量混合检索最佳实践揭秘

2026 SelectDB AI 产品发布会：Agent Native 数据基础设施能力全景发布

Spark SQL 函数分类导航

阿里云检索分析服务Elasticsearch版对接使用全攻略

还有其他疑问?