开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

各位大佬 有遇到过 flink sql cdc left join 少数据问题吗?

各位大佬 有遇到过 flink sql cdc left join 少数据问题吗?图片.png

展开
收起
wenti 2023-01-15 15:10:00 223 0
1 条回答
写回答
取消 提交回答
  • 是的,在使用 Flink SQL CDC 进行 left join 时,可能会遇到少数据问题。这通常是由以下原因引起的:

    数据延迟:CDC connectors 从源数据库读取数据并将其转换为 Flink 记录流。在某些情况下,由于网络延迟或源数据库的处理速度较慢,某些记录可能无法及时到达 Flink 作业。这可能会导致 left join 缺少某些记录。

    乱序数据:CDC connectors 通常以乱序的方式读取数据,这意味着记录的到达顺序可能与它们在源数据库中的顺序不同。这对于 left join 来说可能是一个问题,因为 left 表中的记录可能在 right 表中的相应记录到达之前就已经被处理了。

    主键冲突:如果 left 表和 right 表都包含主键列,并且存在主键冲突(即 left 表和 right 表中具有相同主键值的记录),则 Flink 可能只输出其中一个记录。这会导致 left join 缺少某些记录。

    2024-02-23 16:12:25
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    SQL Server 2017 立即下载
    GeoMesa on Spark SQL 立即下载
    原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili 立即下载