Flink CDC 项目 GitHub star 破 2000,新增 Maintainer 成员

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink CDC 项目动态,更有 2.2 版本内容前瞻!

前言:什么是 Flink CDC ?

Flink CDC 是一个使用 Apache License 2.0 协议的开源项目,支持从 MySQL、MariaDB、RDS MySQL、Aurora MySQL、PolarDB MySQL、PostgreSQL、Oracle、MongoDB、SqlServer、TiDB、OceanBase 等数据库中实时地读取存量历史数据和增量变更数据,整个过程提供 exactly-once 语义保证。Flink CDC 同时提供了 SQL API 和 DataStream API 两套 API,很好地满足了不同开发者的需求。

作为新一代数据集成框架,Flink CDC 既可以替代传统的 DataX 和 Canal 工具做实时数据同步,将数据库的全量和增量数据一体化地同步到消息队列和数据仓库中;也可以做实时数据集成,将数据库数据实时入湖入仓;同时还支持强大的数据加工能力,可以通过 SQL 对数据库数据做实时关联、打宽、聚合,并将物化结果写入到各种存储中。相对于其他数据集成框架,Flink CDC 具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,在开源社区中非常受欢迎。

Flink CDC 项目地址:

https://github.com/ververica/flink-cdc-connectors

一、GitHub star 超过 2000

自 2020 年 7 月份开源以来,Flink CDC 社区发展迅速,在 GitHub 的关注度持续走高。回顾 Flink CDC 项目的发展,在 2021 年 9 月初,Flink CDC 项目的 GitHub star 首次超过 1000,也是这个时候 Flink CDC 发布了 2.0 版本,正式进入大规模生产可用阶段,社区的发展速度也犹如装上了加速引擎。

img

越来越多的人知道并开始使用 Flink CDC,众多的开发者参与到 Flink CDC 的贡献中。仅过去半年,Flink CDC 项目的 GitHub star 数就完成了翻番。截至发稿前,Flink CDC 项目的 GitHub star 数达到 2015,fork 数达到了 660,issue 数达到了 582。这就是开源的力量!

img

社区的发展离不开全体社区开发者的贡献和用户的支持,目前 Flink CDC 项目的贡献者已增加至 34 人,贡献者来自 Cloudera、RedHat、Vinted、阿里巴巴、蚂蚁、网易、XTransfer 等国内外公司。Flink CDC 社区用户群发展也非常迅速,中文用户群成立半年多便达到 3800+ 人。

img

根据社区用户群和公开资料统计,目前使用 Flink CDC 的公司包括 Cloudera、Vinted、阿里巴巴、蚂蚁、网易、腾讯、哔哩哔哩、XTransfer、37 手游、农业银行、民生银行、深圳市领星网络、大健云仓等国内外云厂商和知名企业。通过这些云厂商提供的流计算服务和多家企业实践,我们发现正有越来越多的用户借助 Flink CDC 来快速实现数据实时集成和数据湖实时构建。

二、新增 Maintainer 成员

Flink CDC 社区的快速发展离不开贡献者们的努力,在 Flink CDC 社区高速发展的过程中,涌现了一批活跃的高质量的贡献者。经过 Flink CDC 社区 Maintainer 小组讨论, Flink CDC 社区已经邀请 Jiabao-Sun (孙家宝) 加入 Flink CDC 社区的 Maintainer 列表。

img

孙家宝老师是 XTransfer 基础架构部的资深 Java 开发工程师,负责 XTransfer 基础设施和大数据平台建设,他长期活跃在 Flink CDC 社区,作为核心贡献者在社区贡献了包括 MongoDB CDC Connector 在内的多个 PR,同时在社区 issue 列表和 Flink CDC 社区群非常积极,帮助社区开发者和用户解答了非常多的问题,为社区发展做出了极大的贡献。

期待孙家宝老师作为 Flink CDC 项目的 Maintainer,为 Flink CDC 的发展带来更多元的视角,帮助更多的社区贡献者和用户。也希望未来能有更多的贡献者可以加入 Maintainer 列表,不断推动社区的发展。

三、Flink CDC 2.2 版本前瞻

经过社区 3 个月的开发,已经合并了 47 commits,Flink CDC 2.2 版本也即将与大家见面,包含了许多用户期待已久的功能。

img

  • 2.2 版本会新增 SqlServer CDC,TiDB CDC,OceanBase CDC 三个 Connector,支持从上三种数据库中读取全量和增量 CDC 数据。
  • MySQL CDC 支持动态加表,如果你一个 CDC pipeline 监控了4张表,突然有天老板想让你加几张表,你肯定不想另起作业 (浪费资源),那么这个 feature 可以让你在已有 pipeline 中增加需要监控的表,而无需重新读取已同步的表。
  • 所有 CDC Connector 都可以兼容 Flink 1.13 和 Flink 1.14 版本,意味着同一个 Connector 可以跑在不同版本的集群上。
  • 增量快照读取算法抽象成通用框架,便于其他 connector 接入。只需额外实现少量代码,新 connector 便能支持无锁读取、多并发读取、全程断点续传等功能。
  • MongoDB CDC 支持正则表达式过滤集合, 在 2.1 版本里 MongoDB CDC 只能捕获单个集合或者 DB 下的全部集合,2.2 版本将提供正则匹配集合支持。
  • MySQL CDC 将支持 MySQL 5.6,这对低版本的 MySQL 用户来讲绝对是个好消息。
  • 此外,2.2 版本也修复了很多用户反馈 bug 和小的改进。

社区的贡献者们正在紧锣密鼓地筹备 2.2 版本的发布,目前预计 3 月中下旬便能与用户见面,也欢迎感兴趣的小伙伴成为 Flink CDC 的贡献者,一起参与设计、研发和测试,共同推动社区的发展!


更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
21天前
|
算法 API Apache
Flink CDC:新一代实时数据集成框架
本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享,涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成框架,能高效完成全量和增量数据的实时同步。自 2020 年以来,Flink CDC 经过多次迭代,已成为功能强大的实时数据集成工具,支持多种数据库和数据湖仓系统。未来将进一步扩展生态并提升稳定性。
392 1
Flink CDC:新一代实时数据集成框架
|
1月前
|
消息中间件 canal 数据采集
Flink CDC 在货拉拉的落地与实践
陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案,详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效,并展望了未来发展方向。
474 14
Flink CDC 在货拉拉的落地与实践
|
2月前
|
Oracle 关系型数据库 新能源
Flink CDC 在新能源制造业的实践
本文撰写自某新能源企业的研发工程师 单葛尧 老师。本文详细介绍该新能源企业的大数据平台中 CDC 技术架构选型和 Flink CDC 的最佳实践。
420 13
Flink CDC 在新能源制造业的实践
|
2月前
|
算法 数据处理 数据安全/隐私保护
|
2月前
|
SQL 数据库 流计算
Flink CDC数据读取问题之一致性如何解决
Flink CDC 使用Change Data Capture (CDC)技术从数据库捕获变更事件,并利用Flink的流处理能力确保数据读取一致性。相较于传统工具,它具备全增量一体化数据集成能力,满足实时性需求。在实践中解决了高效数据同步、稳定同步大量表数据等问题。应用场景包括实时数据同步、实时数据集成等。快速上手需学习基本概念与实践操作。未来发展方向包括提升效率与稳定性,并依据用户需求持续优化。
99 1
|
2月前
|
SQL 存储 资源调度
实时计算 Flink版操作报错合集之启动项目时报错缺少MySqlValidator类,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之遇到iava.lang.NoClassDefFoundError: ververica/cdc/common/utils/StrinaUtils错误,是什么导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
6天前
|
编解码 Oracle Java
java9到java17的新特性学习--github新项目
本文宣布了一个名为"JavaLearnNote"的新GitHub项目,该项目旨在帮助Java开发者深入理解和掌握从Java 9到Java 17的每个版本的关键新特性,并通过实战演示、社区支持和持续更新来促进学习。
30 3
|
2月前
|
SQL JavaScript 前端开发
Github 2024-08-05 开源项目周报 Top15
根据 Github Trendings 的统计,本周(2024年8月5日统计)共有15个项目上榜。以下是根据开发语言汇总的项目数量: - Go 项目:4个 - JavaScript 项目:3个 - Python 项目:3个 - Java 项目:2个 - TypeScript 项目:2个 - C 项目:1个 - Shell 项目:1个 - Dockerfile 项目:1个 - 非开发语言项目:1个
54 2
|
2月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
98 1

相关产品

  • 实时计算 Flink版