开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC中世界是 20多万的数据,为啥落库的时候只有 10多万?

"Flink CDC中世界是 20多万的数据,为啥落库的时候只有 10多万?
f60bbce796c4602c6971fad53b75eeaf.png
446697532b01a784821e016bd1d8b0f8.png
批任务,我使用mysql 查询的数量都一致的,就是 flink 落库的时候不对。简单的etl 使用sql ,但是测试还是有问题。
ba7ad252c3853c67a5d5422838a5e89b.png
70949151e82324de8f463952d61f0f95.png
5121304cc33b7dbc93381581c7019490.png
flink 说的是流批一体,不想弄那么中间件。
"

展开
收起
十一0204 2023-08-09 08:55:42 75 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    如果在使用 Flink CDC 进行数据同步时,源数据有 20 多万条记录,但最终只有 10 多万条记录被成功写入目标数据库,可能有以下几个可能的原因:

    过滤条件:检查你的 Flink CDC 应用程序是否设置了过滤条件,导致某些记录被过滤掉而没有写入目标数据库。确保过滤条件正确设置,以便包含所有需要同步的数据。

    数据源问题:检查源数据的完整性和准确性。可能是源数据中存在重复记录、缺失记录或其他数据问题导致最终写入目标数据库的记录数量不符合预期。

    数据转换或处理错误:如果你在 Flink CDC 应用程序中对数据进行了转换或处理操作,错误的处理逻辑可能导致数据丢失或数量减少。检查你的数据转换或处理逻辑,确保它们正确地处理源数据并生成正确的目标数据。

    数据写入失败:在数据写入目标数据库时,可能发生写入失败的情况。这可能是由于数据库连接问题、目标表定义不匹配或其他写入错误导致的。检查你的目标数据库的配置和表定义,确保它们与写入操作相匹配,并查看日志或错误信息以获取更多关于写入失败的信息。

    并发或同步延迟:如果你的 Flink CDC 应用程序使用并发处理或存在同步延迟,可能会导致最终写入目标数据库的记录数量不符合预期。在这种情况下,你可以调整并发度或处理延迟的配置,以满足你的需求。

    2023-08-13 16:57:14
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载