文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink如果是 SELECT COUNTflink sql 如何去重？如果不把之前的存储下来，是如

Flink如果是 SELECT COUNT( DISTINCT orderId) FROM source_table；比较好奇，如果第一条数据的 orderId是 A00023，然后kafka推送到第 70W，条数据的orderId 也是 A00023，flink sql 如何去重？如果不把之前的存储下来，是如何做到过滤掉 A00023 这个重复 orderId的？

展开

收起

真的很搞笑 2023-08-01 12:02:34 157 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

流式处理，数据是有状态，对应有ttl和状态后端，不会所有数据都存储在内存里，此回答整理自钉群“【③群】Apache Flink China社区”

2023-08-01 12:16:49

赞同展开评论

问答分类：

存储 SQL 消息中间件 Kafka 流计算实时计算 Flink版云消息队列 Kafka 版

问答标签：

实时计算 Flink版SQL flink SQL SQL select 实时计算 Flink版存储实时计算 Flink版sql去重

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink Table Store中，哪些操作适合在Service中进行，哪些适合在湖存储中进行？

140

1

0

Flink的 jar作业如果里面用了state 最终是保存在内存还是外部存储？

390

1

0

在Flink CDC中，pgsqlcdc 导致数据库服务器存储满了怎么解决？

190

1

0

在Flink CDC中，怎么查看我是用这个查所有 SELECT？

166

0

0

如何构造一个包含 select、from 和 where 子句的 SQL 节点树？

174

1

0

在Flink CDC中使用窗口去重然后进行累计求和计算，输出的求和结果会出现跳变，为什么？

176

0

0

Flink的mysql同步kafka 目前只能是kafka存储所有数据的么？

157

1

0

DataWorks一个sql脚本任务里面有多个select insert语句执行的时候是并行的吗？

192

1

0

Flink MySQL cdc 同步时状态存储的是全表的数据吗？

218

4

0

PolarDB开启SQL洞察支持如果不存储到sls的话，这个日志我只能通过控制台查询吗？

148

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

【Java杂项】为什么 b += 1 可以，但 b = b + 1 会报错？类型提升与复合赋值详解

《用OpenClaw Active Memory构建下一代个性化服务体系》

1688 店铺全商品接口技术全解：从页面解析到分页采集的完整实现方案

基于阿里Qoder的实训案例荣获2026全国高校程序设计教育大会特等奖

相关解决方案

更多

SelectDB实现日志高效存储与实时分析

高效存储和处理多媒体数据

Flink 与 Hologres 搭建实时数仓

Flink CDC 实现企业级实时数据同步

高可用及共享存储 Web 服务

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flinkcdc在IDEA运行正常，打包就报错

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

如何用实时数据同步打破企业数据孤岛？

这个AI 说的 Flink的每个key状态和每个并行度的状态怎么测试区分？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

Flink CDC2.4.1的版本sqlserver支持指定时间戳消费了吗？

展开全部

Flink kafka source & sink 源码解析

Flink Forward Asia 2026 官宣深圳｜From Cloud Native to AI Native

（二）走进阿里云实时计算Flink版-场景案例篇

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Flink CDC+Kafka 加速业务实时化

数据仓库介绍与实时数仓案例

Skill即服务：用Agent安全玩转云上Flink

Flink 基础详解：大数据处理的强大引擎

Flink Agents：基于Apache Flink的事件驱动AI智能体框架

从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路

展开全部

还有其他疑问?