回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)

简介: 9月24日,Apache Flink Meetup 线上问题解答 + PPT 获取方式

img

Flink 1.16、Flink Batch、更轻量的 Checkpoint、Table Store 0.2、 Streaming Warehouse 、流批一体...这些都是 9 月 24 日 Apache Flink Meetup 的关键词。

活动现场照片:https://live.photoplus.cn/live/pc/91397712/#/live

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网:
https://flink-learning.org.cn/activity/detail/f30571911e47478ddf4047eeb518d796

移动端

PPT:关注 Apache Flink 公众号,回复 0924
视频:关注 ApacheFlink 视频号,查看直播回放

线上问题解答

01《更快更稳更易用 -- Flink 批处理能力演进》

问:自适应这个是默认开启吗?

答:目前没有默认开启,需要用户配置使用自适应批处理调度器来启用。具体可以参考社区文档
https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/deployment/elastic_scaling/#adaptive-batch-scheduler

问:自适应能不能解决数据倾斜问题?

答:当前版本还不能。但是 Adaptive Batch Scheduler 的实现已经为数据倾斜的解决提供了基础。后续我们会根据各个数据分区的大小,对其进行分组,使得各个下游消费的数据尽可能均衡。当然,这样解决不了非常严重的热点 key 问题。不过动态执行拓扑的引入,使得引入子拓扑来对热点 key 进行拆分整合成为了可能,从而解决热点 key 的问题,我们会持续关注这方面的需求并考虑完善的解决方案。

02《Flink 1.16:Hive SQL 如何平迁到 Flink SQL》

问:能不能把一些额外的组件和 flink 项目分开。感觉和 flink 版本绑定了,用 sqlclient 等组件就必须用那个版本的 flink。

答:目前Flink仓库的一些 connector 正在搬出 Flink 主仓库,之后 Flink 项目会瘦身。SQL Client 正在重构并通过 REST API 对接到 SQL Gateway。届时 SQL Client 可以与 Flink 版本解耦,可以同时对接多个版本的 SQL Gateway 和 Flink 集群版本。

问:sql gateway 后续会支持 spark/trino 引擎吗?

答:SQL Gateway 目前只面向 Flink 引擎。外部的生态系统可以通过 SQL Gateway 搭建多引擎平台。

问:sql gateway 与 kyuubi 的定位是否类似?

答:两者的定位和作用是类似的,都是为查询引擎提供 SQL 服务。但两者又有所不同, Kyuubi 起源于为 Spark/Hive 提供 SQL 服务,主要面向批场景。但是 Flink SQL Gateway 主要面向的是 Flink 引擎,从一开始就将流批一体的能力设计进去了,能同时很好地支撑Streaming SQL和Batch SQL的用户场景。

问:sqlgateway 和 kyuubi flink 引擎有什么不同?有哪些优势吗?

答:目前 SQL Gateway 在功能上对 JDBC 的支持更为完善(getPK,getColumns),支持同步/异步执行SQL,能无缝对接主流 Hive 生态工具。第二个就是 kyuubi 主要依赖 Hive 接口来暴露服务,Hive 的纯批语义无法支持 CDC 的 DELETE、UPDATE_BEFORE、UPDATE_AFTER 等消息类型,但是我们的 SQL Gateway 还提供了 REST API,对Streaming SQL提供了原生支持。第三,SQL Gateway 的 HiveServer2 Endpoint 与 Hive 做了深度集成,便于用户直接将 Hive 作业无缝迁移到 Flink。

问:sqlgateway 支持哪几种模式?三种模式都支持吗?

答:目前只支持 session, per-job 模式,但还不支持 application 模式。

问:未来会支持 spark/presto sql 方言么?

答:其实 spark 方言和 hive 方言比较类似。一些 spark sql 任务也可以使用 Hive dialect 来解析然后通过 Flink 来运行。presto sql 方言目前还没规划。

问:sqlgateway 是否提供多租户能力,是否能支持鉴权功能、HA功能?

答:目前支持多租户,但还不支持鉴权功能和 HA 功能,将来后续版本中支持。

03《基于Log的通用增量Checkpoint》

问:这是什么版本的优化

答:1.15开始支持,1.16做了一些性能优化和状态特性的兼容等,基本生产可用,可以参照1.16的文档使用

问:有没有一种场景是要获取上一个成功的任务的状态,接着下一个开始,又不想查数据,可以直接获取到。不想使用流任务占资源。

答:是说在多个任务之间共享状态吗?这个的话可以考虑下State Processor API

问:基于 log 的 checkpoint 是如何影响 flink table store 的?整个过程是怎么样的?

答:可以把table store当成事务性sink来看,目前table store推荐的cp interval是1 mins,近实时,但是否实际cp能在1 mins完成,或者是否能配置更低的interval来让table stroe中的数据更实时,取决于cp完成得多快,changelog是可以在这方面做提升的

问:这个通用增量 checkpoint 是以 rocksdb 为 state backend 时设置增量 checkpoint 的另一选择吗?

答:两者是正交的,可以在state.backend.incremental设置为true的基础上再打开changelog

04《基于 Flink CDC + Kafka 加速业务实时化》

问:如果仅仅是一个库的多张表呢?只能多条语句吗?

答:可以使用 CREATE DATABASE AS (CDAS) 同步同一数据库中的多张表

问:除了 mysql&kafka 数据同步外,schema 能同步到 registry 吗?

答:暂不支持该功能

问:flink cdc 全量和增量利用 watermark 是怎么切换的?具体是怎么配置的?

答:这里的 watermark 与 Flink watermark 概念不同。为避免全量读取过程中数据发生变化产生不一致,在进行全量读取之前首先会记录当前 binlog 的位点,记为 low watermark,在全量读取结束后再记录一次 binlog 位点作为 high watermark,然后再将 low / high watermark 之间对全量数据产生的变更 binlog 合并到全量读取的数据中,实现全量数据的完全一致。

问:cdc 将不同数据源同步到 kafka 中,有没有对消息体数据格式做统一,消息体是否带 schema?

答:Kafka 消息统一使用 JSON 格式,不会单独记录 Schema。

问:kafka catalog 在哪里记录的 topic schema 呢?

答:Topic schema 不会单独记录。Kafka JSON Catalog 在读取表时会通过探测的方式首先读取多条数据、解析 JSON 来确定 schema。

问:demo 里用的什么版本的 kafka

答:Demo 使用了 Kafka 2.4.1,但该功能不绑定于某个 Kafka 版本。

问:作业启动后中途要添加一张表的同步要怎么处理?

答:暂时无法处理新表,MySQL CDC source 后续会增加动态加表的能力

问:flink cdc 整库除了入 kafka 外,能入湖和入仓吗?

答:商业版已支持数据同步到 Hologres,其他数据湖/仓库会陆续支持。

问:flink cdc&kafka 同一个库下大表和小表同步资源使用上有什么不同策略么?

答:默认不会对不同表的资源做特殊处理,但用户可以在平台上手动配置算子并发。

O1CN01gJeFjl20KeJFPI0qp_!!6000000006831-0-tps-828-1068.jpg

05《Flink Table Store 典型应用场景》

问:flink table store 什么版本可用?

答:flink table store 0.1.0 是 beta 版本,0.2.1 是生产可用版本。支持 flink 1.14 和 1.15 版本。

问:宽表合并中若两条流没有公共 pk 怎么办?

答:0.3会考虑这种场景的打宽,后续会有单独设计

问:fts 会有小文件问题么?

答:flink table store 在写数据的同时异步 compaction

问:flink sql gateway 的进度能介绍下吗?

答:flink-sql-gateway 会在1.16发布

问:目前 table store 不支持流读是么?还没有changelog

答:支持流读,数据库cdc可以配置changlog-producer=input来优化读取性能

O1CN01lFtKjf22ZsiDoFrPy_!!6000000007135-0-tps-1170-1530.jpg


Flink Forward Asia 2022 正式启动

img

img

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
6月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
1061 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
539 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
8月前
|
SQL 人工智能 数据挖掘
Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
902 9
Apache Flink:从实时数据分析到实时AI
|
8月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
794 0
|
7月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
2395 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
8月前
|
存储 人工智能 数据处理
对话王峰:Apache Flink 在 AI 时代的“剑锋”所向
Flink 2.0 架构升级实现存算分离,迈向彻底云原生化,支持更大规模状态管理、提升资源效率、增强容灾能力。通过流批一体与 AI 场景融合,推动实时计算向智能化演进。生态项目如 Paimon、Fluss 和 Flink CDC 构建湖流一体架构,实现分钟级时效性与低成本平衡。未来,Flink 将深化 AI Agents 框架,引领事件驱动的智能数据处理新方向。
809 6
|
8月前
|
消息中间件 存储 Kafka
Apache Flink错误处理实战手册:2年生产环境调试经验总结
本文由 Ververica 客户成功经理 Naci Simsek 撰写,基于其在多个行业 Flink 项目中的实战经验,总结了 Apache Flink 生产环境中常见的三大典型问题及其解决方案。内容涵盖 Kafka 连接器迁移导致的状态管理问题、任务槽负载不均问题以及 Kryo 序列化引发的性能陷阱,旨在帮助企业开发者避免常见误区,提升实时流处理系统的稳定性与性能。
670 0
Apache Flink错误处理实战手册:2年生产环境调试经验总结
|
SQL 存储 人工智能
Apache Flink 2.0.0: 实时数据处理的新纪元
Apache Flink 2.0.0 正式发布!这是自 Flink 1.0 发布九年以来的首次重大更新,凝聚了社区两年的努力。此版本引入分离式状态管理、物化表、流批统一等创新功能,优化云原生环境下的资源利用与性能表现,并强化了对人工智能工作流的支持。同时,Flink 2.0 对 API 和配置进行了全面清理,移除了过时组件,为未来的发展奠定了坚实基础。感谢 165 位贡献者的辛勤付出,共同推动实时计算进入新纪元!
1432 1
Apache Flink 2.0.0: 实时数据处理的新纪元
|
存储 大数据 数据处理
您有一份 Apache Flink 社区年度报告请查收~
您有一份 Apache Flink 社区年度报告请查收~
237 0

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多