文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC里提2个TiDB source connector的bugs解决一下？

Flink CDC里提2个TiDB source connector的bugs，第一，当TiDB的一张表的字段数超过125，则解析记录时，记录的最后超过的字段的数据全部丢失，全部返回null。第二，当CDC的TiDB的表记录数很大时（有几千个regions），则当region发生合并，拆分之后，就再也收不到CDC数据。使用Flink CDC3.0版本，虽然是开源项目，但是也需要经过严格测试在release版本出来，免得使用者在生产环境中踩坑，非常的被动，上述2个bug经过源码排查，第一个是TiKV client类库自身的一个bug，第二是flink cdc的bug,希望社区有关开发者尽快修复啊。TiDB因为是golang开发的，所以TiKV client库的开发人员可能没有搞清楚java byte和golang byte类型的取值范围是不一样的，java是有符号的，而golang byte是无符号的。并且他们用一个byte类型的数组保存一行记录中字段的序号，在查找时又用了binarysearch，binarysearch要求数据是已排序的，所以有符号的和无符号的byte排序当然是不一样的，所以出现排序混乱导致超过127之后字段查询不到而返回null的bug，这是第一个bug，第二个bug涉及到org.tikv.common.util.ChannelFactory这个类中的缓存grpc channel的问题，这个缓存的实现是有问题的，在有几千个region的大表中，当发生合并，拆分后，channel已经失效了，但是为了提高效率，flink cdc复用了实效的channel，导致CDC events无法再接收到了。当然grpc channel是非常昂贵的资源，需要复用，这个没啥毛病，但是实现上有漏洞，我们正在自行修复这个问题。目前只是复现了这个bug。这种问题只有在实际的生产环境中才能暴露出来，一开始我们在测试环境没有遇到任何问题，我正打算把tidb这块的connector重新写一下。

展开

收起

小小鹿鹿鹿 2024-05-01 08:55:48 150 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小小杳杳杳

谢谢非常详细的bug report，可以分别在 Flink Jira 和 TiDB Github 上开issue记录下哈，钉群消息很快会被淹没。此回答来自钉群Flink CDC 社区。

2024-05-01 13:03:29

赞同 2 展开评论

问答分类：

流计算 Go Java 缓存安全测试技术开发者实时计算 Flink版云解析DNS

问答标签：

实时计算 Flink版CDC 实时计算 Flink版connector 实时计算 Flink版cdc connector 实时计算 Flink版cdc source 实时计算 Flink版source connector

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

对于Flink CDC，这个有人用过tidb 7.1.1版本？

159

0

0

flinkcdc1.13版本自定义实现connector，join流有输入，但是没有输出，怎么解决？

241

1

0

flink作为source jar作业代码里面消费位点的订阅方式和控制台的有无状态启动有冲突吗？

132

1

0

为什么 Flink CDC OceanBase Connector 目前只支持吗？

140

1

0

未来如何优化 Flink CDC OceanBase Connector 的数据读取？

122

1

0

Flink CDC OceanBase Connector分为哪几类 SourceFunction？

120

1

0

Flink的vvp hologres connector支持版本字段么？

106

0

0

请问 flink 1.19 现在支持 es sql connector吗？

129

0

0

flink cdc 3.1 有没有支持 tidb 作为source的？

155

0

0

在Flink CDC中如何能够将tidb的表同步到paimon？

152

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

拒绝花里胡哨，AI编程载体与助手的实战适配攻略

Windows Server 2019 中文版、英文版下载 (2026 年 2 月更新)

2026年阿里云OpenClaw(Clawdbot)部署+飞书深度接入全教程

大模型应用：LlamaIndex 与 LangChain 深度集成构建本地化RAG系统.25

Java实现接口幂等性：程序员的“后悔药”

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink有2023 Flink Forward Asia 资料下载地址吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink中，遇到cdc 同步中文表和中文列乱码怎么处理？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

pyflink在读取hdfs文件的时候如何使用通配符？

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

展开全部

还有其他疑问?