(一)走进阿里云实时计算Flink版-产品能力篇

简介: 阿里云实时计算Flink版是企业级高性能实时大数据处理平台,由Flink创始团队打造。提供VVR+Flash双引擎,性能达开源Flink的3-4倍;支持动态扩缩容、SQL开发、CEP规则热更新、湖流一体(Fluss+Paimon)、大模型集成等能力,全面兼容开源生态。(239字)

作者:黄鹏程(马格)阿里云实时计算Flink版产品负责人

简介

作为全球领先的实时计算技术团队,阿里云Flink团队致力于为企业提供高性能、高可靠、易用的实时数据处理解决方案,助力企业实现数据驱动的业务创新与价值创造。本篇内容将全面解读阿里云实时计算Flink版的产品架构、核心能力和技术优势,后续将为大家继续介绍Flink的场景与案例。

一、Apache Flink介绍

Apache Flink发展历程:开源前身

Apache Flink 的起源可追溯至2010年,由德国研究中心联合柏林工业大学、柏林洪堡大学和波兹坦大学共同发起的研究项目:Stratosphere(平流层)。平流层在大气科学中位于对流层上方和中间层下方,其下界在中纬度地区距地表约10公里,极地地区约8公里,上界约在离地50公里高度。平流层温度呈上热下冷分布,随高度增加,温度起初保持稳定,随后迅速上升。该层大气以水平方向流动为主,垂直运动较弱,气流平稳,几乎没有上下对流。这一命名寓意Flink系统如平流层般稳定、高效且有序的数据处理能力,为后续发展奠定了坚实基础,也体现了其追求高效、稳定数据处理的核心设计理念。

幻灯片4.png

Apache Flink发展历程:顶级Apache项目

阿里云在 Flink 技术发展史上扮演着至关重要的角色。2016年,阿里集团在最核心业务场景(双11实时推荐)中首次大规模应用 Flink,显著提升 GMV;2017年,Flink在阿里集团内部全面普及,成为集团实时数据业务的核心基础设施;2018年,阿里云将Flink大会(Flink Forward)引入中国和亚洲,推动技术本土化;2019年,阿里云收购 Flink 创始公司 Ververica,成为 Flink 社区最大推动者,全球顶尖 Flink 团队会师,并开始将内部研发的 Blink 代码贡献回开源社区;2020年,阿里云正式推出实时计算 Flink 产品,同时全球主流IT公司和云厂商全面采用 Flink,确立其实时计算领域事实标准地位;2021年至今,阿里云持续推动 Flink 技术进步,打造完全国产自主可控产品,成为中国唯一进入 Forrester 象限的实时流计算产品,唯一全面通过中国信通院基础能力、性能、稳定性三款评测的分布式流处理平台。阿里云 Flink 团队拥有100+核心能力、10+Flink 生态项目、30+Flink Committers 及 20+Flink PMC Members,实现了从加入社区、融合社区到主导社区的战略历程。

幻灯片5.png

阿里云推动Flink技术进步与繁荣

在阿里巴巴集团内部,Flink 已成为支撑业务全链路实时化的关键基础设施。目前,阿里集团生产环境运行超过3万个 Flink 作业,峰值处理能力达69亿记录/秒,计算资源规模超过200万 Core。Flink 广泛应用于多种业务场景:在数据中台领域,支撑流批一体数仓建设;在 AI 中台,支持在线机器学习和实时特征计算;在安全领域,提供实时风控能力;在运维领域,实现系统实时监控;在搜索推荐领域,构建实时索引系统。阿里云 Ververica 产品已登陆 AWS,开启多云产品新时代;推出 Apache Paimon 湖格式,增强数据湖能力;正式发布 Apache Fluss 流存储,完善实时计算生态。这些大规模内部实践不断打磨产品,为云上用户提供经过验证的企业级能力。阿里云通过开源社区回馈,将内部实践成果贡献给全球开发者,推动 Flink 生态繁荣发展,同时保持产品与开源社区100%兼容,支持用户平滑迁移。

幻灯片6.png

阿里云Flink在集团内部的规模化应用

在阿里巴巴集团内部,Flink已成为支撑业务全链路实时化的关键基础设施。目前,阿里集团生产环境运行超过3万个Flink作业,峰值处理能力达69亿记录/秒,计算资源规模超过200万Core。Flink广泛应用于多种业务场景:在数据中台领域,支撑流批一体数仓建设;在AI中台,支持在线机器学习和实时特征计算;在安全领域,提供实时风控能力;在运维领域,实现系统实时监控;在搜索推荐领域,构建实时索引系统。阿里云Ververica产品已登陆AWS,开启多云产品新时代;推出Apache Paimon湖格式,增强数据湖能力;正式发布Apache Fluss流存储,完善实时计算生态。这些大规模内部实践不断打磨产品,为云上用户提供经过验证的企业级能力。阿里云通过开源社区回馈,将内部实践成果贡献给全球开发者,推动Flink生态繁荣发展,同时保持产品与开源社区100%兼容,支持用户平滑迁移。

幻灯片7.png

二、阿里云实时计算Flink版介绍

1、阿里云实时计算Flink版产品概览

阿里云实时计算 Flink 版(Alibaba Cloud Realtime Compute For Apache Flink,Powered By Ververica)是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品。作为全球最大、拥有 Committer 数量最多、专业性最强的 Flink 团队,阿里云实时计算团队为用户提供企业级管理和咨询服务。产品采用一站式实时任务开发运维平台,提供从任务开发、调试、部署、管理到诊断调优的全流程服务。在商业模式上,支持包年包月、按量付费及混合计费等多种灵活方式。技术架构采用 Serverless 设计,无需预置资源,按需弹性扩缩容,降低资源使用成本达 30% 以上;支持秒级弹性增减作业资源,保障业务连续性;提供作业级别的资源隔离,确保业务稳定性。产品内核 100% 兼容 Apache Flink,支持用户平滑迁移;在 Nexmark 流计算标准测试中,性能达到开源 Flink 的 3-4 倍;提供企业级增强功能,如入湖入仓、实时数仓、数据湖、CEP 动态规则配置等;提供全面可观测性和高稳定性保障,包括丰富作业监控指标、日志洞察、智能调优与诊断、全局高可用、故障自动恢复,以及产品级同城灾备能力,服务可用性保障达 99.9%。

幻灯片9.png

阿里云实时计算 Flink 版:产品功能整体架构

阿里云实时计算 Flink 版整体架构分为流计算和流存储两大核心组件。流计算层面包含企业级引擎 Flash,支持数据大屏、数据清洗、数据探查、数据科学等应用场景,提供 Flink CDC 数据摄入和 Flink 数据实时读写能力。数据存储层融合 ODS、DWD、DWS 等数据分层,采用 Apache Paimon 湖格式,支持 Hologres、AnalyticDB 等实时数仓。流存储层面基于 Fluss 构建,提供湖流一体能力,支持流读、批读、流写、批写,通过 LSM 提供数据更新能力,优化查询性能。控制台层面提供作业开发、监控告警、集群管理、数据治理、调试部署、诊断调优等全生命周期管理功能。平台集成 OpenAPI,支持与 SLS、AnalyticDB、Hologres、Apache Paimon、Tair/Redis 等阿里云产品无缝对接。在部署形态上,支持公共云全托管、专有云企业版;在付费模式上,支持包年包月、按量付费、混合计费;海外支持软件化输出及订阅模式。产品架构设计充分考虑企业级需求,在性能、稳定性、易用性、安全性等方面提供全方位保障,助力用户快速构建实时数据应用。

幻灯片10.png

Flink实时流计算

阿里云实时计算 Flink 版作为企业级实时流计算平台,提供核心引擎能力与平台功能。企业级引擎方面,产品提供细粒度资源分配、企业级 SQL 算子优化、动态复杂事件处理 (CEP)、企业级数据摄入、自研向量化引擎与存储、状态参数与资源动态调整等能力,完全兼容开源 Apache Flink 内核,支持用户无感迁移,避免厂商锁定。平台功能方面,产品提供实时作业开发与运行平台、作业资源自动调优、作业全生命周期管理、智能运维诊断、OpenAPI 集成能力、Serverless 资源管理、全链路监控报警等服务。交付形态覆盖公共云全托管、海外软件化输出、海外多云软件与服务订阅、专有云企业版等多种形式;付费模式支持包年包月、按量付费、混合计费等灵活选择,满足不同客户需求。产品与阿里云生态深度融合,支持 OSS、SLS、MaxCompute、Apache Paimon 等数据源,以及 Tair/Redis、RDS MySQL、OceanBase、Kafka 等数据目标,构建完整的实时数据处理链路。基于 Ververica 技术,产品确保关键 Bug 修复提前进入 Flink 未来版本,为用户提供稳定可靠的实时计算服务。

幻灯片11.png

Fluss实时流存储

Fluss 是阿里云推出的开箱即用、面向实时流分析的湖流一体存储,提供流读、流写、实时更新、维表 Join、数据湖分析等能力。Fluss 架构包含服务器集群、远程存储 (S3/OSS/HDFS)、湖存储 (Paimon/Iceberg/Lance) 和 Tiering Service 等组件。控制台提供集群管理、指标告警、数据管理、审计日志、身份认证、数据容灾等功能。Fluss 采用全新的 Native 架构,支持列式存储,具备列裁剪、查询下推等优化特性,实现高吞吐、低延时的数据处理。产品支持数据更新和 Binlog 订阅,实现秒级端到端数据可见性,满足严格实时性要求。Fluss 提供独特的 Delta Join 能力,避免大状态导致的 Flink 作业高成本和稳定性问题,100TB 大状态作业场景下计算资源降低 86%,Checkpoint 耗时从 90s 降至 1s。Fluss 内置湖流通道服务,通过文件到文件转换高效入湖,元数据变化自动同步,简化数据链路,降低开发运维成本,实现真正的湖流一体架构。

幻灯片12.png

双引擎加持:企业级 Flink 引擎 VVR+ 向量化引擎 Flash

阿里云实时计算 Flink 版提供双引擎架构:企业级 Flink 引擎 VVR 和向量化引擎 Flash。VVR 引擎 100% 兼容 Apache Flink,支持用户无感知迁移,避免厂商锁定;Flash 引擎采用全新 C++ Native 执行架构,实现指令、数据全面向量化处理,全新内存管理避免 JVM 瓶颈,配备向量化的状态 DB ForSt-Mini 和批量异步 IO 优化的状态 DB ForSt-Pro。两引擎均经过全链路优化,包括上下游生态适配和作业 Workload 动态自适应。Flash 引擎在性能上显著超越传统实现,具备卓越的计算效率和资源利用率。双引擎架构为用户提供灵活选择,满足不同业务场景对性能、兼容性和特性的需求,同时保障平滑迁移路径,保护用户既有投资。这种架构设计体现了阿里云对实时计算技术的深度理解和创新实践,为用户提供业界领先的计算能力。

幻灯片13.png

2、成本与性能优势分析

Flash Engine 流式处理性能评估

在 Nexmark 标准流计算性能评测中,Flash 引擎展现出卓越性能优势。测试结果显示,Flash 1CU 的处理能力相当于 Apache Flink 4CU,相当于 VVR 2CU。在详细指标对比中,Flash 在多个查询场景下均显著优于 VVR 和开源 Flink。例如,在 Q4 查询中,Flash 处理速率达 436.57 Records/S,而 VVR 和 Flink 仅为 157.3 Records/S;在 Q9 查询中,Flash 达 1127.13 Records/S,VVR 和 Flink 为 291.6 Records/S;在 Q15 查询中,Flash 为 167.9 Records/S,VVR 和 Flink 为 48.3 Records/S。整体而言,Flash 在 22 个查询场景中均表现出 3-4 倍于开源 Flink 的性能优势。这些性能提升源于 Flash 引擎的向量化执行、内存优化、状态管理改进和全链路协同优化,为用户提供更高性价比的实时计算服务,显著降低 TCO(总体拥有成本)。

幻灯片14.png

Flash Engine 批处理性能评估(TPC-DS 测试)

在 TPC-DS 10TB 标准批处理性能评测中,Flash 1.0 展现出卓越性能优势。测试基于 Apache Paimon 数据源,结果显示 Flash 1.0 处理时间仅为 1780 秒,而 Flink 1.19 为 5812 秒,性能提升 3.2 倍。详细指标对比显示,在 99 个查询场景中,Flash 在绝大多数查询上性能显著优于 Flink 1.19。例如,在 Q30 查询中,Flash 执行时间为 1.31 秒,Flink 为 5.24 秒;在 Q36 查询中,Flash 为 1.92 秒,Flink 为 5.01 秒;在 Q40 查询中,Flash 为 1.49 秒,Flink 为 3.91 秒。性能优势在数据密集型查询中尤为显著,如 Q9 查询 Flash 为 3.92 秒,Flink 为 13.69 秒;Q15 查询 Flash 为 4.87 秒,Flink 为 11.65 秒。这些性能提升源于 Flash 引擎的向量化执行引擎、列式处理优化、内存管理改进和状态存储优化,为批处理工作负载提供高效、经济的解决方案,显著加速数据分析流程。

幻灯片15.png

Flash Engine批处理性能评估(Spark对比)

在 TPC-DS 10TB 标准批处理性能评测中,Flash 1.0 不仅超越 Flink,也显著优于行业标杆 Spark。测试基于 Apache Paimon 数据源,结果显示 Flash 1.0 处理时间仅为 1780 秒,而 Spark 3.4 为 5582 秒,性能提升 3.1 倍。详细指标对比显示,在 99 个查询场景中,Flash 在大多数查询上性能显著优于 Spark 3.4。例如,在 Q64 查询中,Flash 执行时间为 1.00 秒,Spark 为 4.09 秒;在 Q52 查询中,Flash 为 0.65 秒,Spark 为 4.26 秒;在 Q98 查询中,Flash 为 1.90 秒,Spark 为 6.26 秒。性能优势在复杂查询中尤为明显,如 Q15 查询 Flash 为 4.87 秒,Spark 为 13.69 秒;Q89 查询 Flash 为 1.70 秒,Spark 为 4.15 秒。这些性能提升源于 Flash 引擎专为分析场景优化的执行计划、向量化处理能力、内存管理和 I/O 优化,为用户提供超越传统批处理引擎的性能体验,同时保持与实时处理统一的技术栈,简化数据架构。

幻灯片16.png

SQL 引擎优化

阿里云实时计算 Flink 版在 SQL 引擎层面进行深度优化,显著提升查询性能和资源效率。优化重点包括算子优化、双流 Join 优化、维表 Join 优化和级联 Join 优化。算子优化针对特定计算场景重构执行逻辑,减少中间数据交换和内存占用;双流 Join 优化改进状态管理和数据匹配算法,降低大状态场景下的资源消耗;维表 Join 优化引入缓存策略和异步查询机制,提升与外部数据源交互效率;级联 Join 优化重构执行计划,避免中间结果膨胀。这些优化共同构建了强劲的 SQL 处理能力,配合 GeminiStateBackend 状态存储引擎,实现高效稳定的状态管理。优化后的 SQL 引擎在复杂查询场景下表现尤为突出,能够处理高并发、大数据量的工作负载,为实时分析、即席查询等场景提供强大支持,显著降低查询延迟,提高资源利用率,为用户提供卓越的分析体验。

幻灯片17.png

企业级状态后端存储引擎性能提升

阿里云实时计算 Flink 版提供 GeminiStateBackend,一款专为流计算场景设计的 KV 存储引擎,作为产品的默认状态存储后端 (StateBackend),已在阿里巴巴集团和阿里云客户生产环境中大规模应用。GeminiStateBackend 的核心设计亮点包括:1)全新架构和数据结构设计,基于 LSM 数据结构,支持随数据规模和访问特点变化而自适应、数据冷热分层,可在 Anti-Caching 和 Caching 架构间灵活切换;2)支持随机查询友好的哈希存储结构,Nexmark 性能测试显示相比 RocksDBStateBackend 有显著提升;3)本地和远端统一的文件管理,将本地盘作为主存,DFS 作为下一级存储,在 DFS 数据量不大的情况下性能可接受;4)支持存储计算分离,彻底摆脱状态数据的本地盘存储限制,状态存储不依赖本地盘,避免因本地状态数据过大引发作业故障;5)支持 KV 分离,大幅提升双流或多流 Join 作业效能,经阿里巴巴双十一核心业务验证,开启 KV 分离后计算资源利用率平均提升 50%,典型场景下可提升 200%;6)自适应参数调优,告别手动调参烦恼,系统根据当前数据访问模式和流量自动调参,达到各种场景下最佳性能,避免 95% 以上人工调参,同时提升 40% 单核吞吐能力;7)在扩缩容方面实现文件粒度合并剪裁和状态文件懒加载,文件粒度合并剪裁采用异步方式加速作业恢复,状态文件懒加载实现远端文件异步下载、按需加载,Flink 作业在元数据恢复后即可半速运行,热更新 + 状态懒加载使作业停止处理时间从 200s 降至 20s。这些创新设计使 GeminiStateBackend 成为企业级流计算的理想状态存储解决方案。

幻灯片18.png

3、引擎能力介绍

业务连续性:动态扩缩容与参数动态更新

阿里云实时计算 Flink 版提供业务连续性保障能力,解决大规模实时数据服务持续在线问题。传统方式下,修改运行中作业需停止当前作业,提交修改后作业,等待重新部署和运行,导致断流时间长、修改代价高。阿里云 Flink 提供动态参数更新能力,支持将作业修改操作(如并发度修改)通过 REST 请求发送至运行中作业,以原地重启或不重启方式更新。相比传统 "停止作业 -> 修改作业 -> 启动作业" 流程,动态参数更新允许作业复用现有 JobManager 和 TaskManager 容器,降低重启代价。配合资源预申请、State Lazy 加载等能力,可进一步提升更新后作业启动速度,将断流时间从分钟级降至秒级。除修改作业并发度外,动态参数更新还支持在不重启作业情况下更新关键配置,包括系统检查点间隔、系统检查点最小间隔、系统检查点超时时间等。开源 Flink 修改这些参数需全局重启,而阿里云 Flink 支持在线动态更新,基于当前作业修改生成新作业,极大提升业务连续性。这一能力对金融、电商等对服务连续性要求高的场景尤为重要,确保业务不中断,用户体验不降级。

幻灯片19.png

内置丰富的上下游数据连接(Connector)

阿里云实时计算 Flink 版内置丰富的上下游数据连接能力,覆盖数据库、数据湖、消息中间件、数据仓库等多种存储类型。产品支持 Kafka、Datahub、SLS 等消息中间件;Apache Paimon、Apache Hudi、Apache Iceberg 等数据湖格式;Hologres、StarRocks、ADB、OceanBase、ClickHouse、SelectDB 等数据仓库;MySQL、Redis、PostgreSQL、PolarDB MySQL、Lindorm 等数据库。产品内置阿里云产品/开源社区 30+ 主流引擎,涉及数据库、消息中间件、数据仓库、湖格式、文件系统等多种上下游存储,提供企业级技术支持与持续迭代,确保正确性和性能。产品支持用户自定义 Connector 和 Format 上传、使用和管理,扩展生态兼容性;提供比开源更丰富的监控指标和完善文档说明,降低使用门槛。这些连接器经过企业级优化,在稳定性、性能和功能上都有显著提升,为用户提供开箱即用的数据集成体验,简化数据管道构建,加速数据价值变现。

幻灯片20.pngFlink CDC 的数据实时入湖入仓

阿里云实时计算 Flink 版基于 Flink CDC 提供强大的数据实时入湖入仓能力。Flink CDC 是实时入湖入仓的首选工具,能够对接上游 MySQL、PG、PolarDB 等十多种数据源,实时同步到 Hologres、Hudi、Paimon 等十多种数据目标。同步链路具备全增量一体化、整库同步、表结构变更同步、分库分表合并、Streaming ETL 等核心特性。Flink CDC 3.0 以 YAML 配置为中心,提供三大优势:1)配置型端到端数据管道,一个 YAML 配置即可完成从数据源到数据目标端的数据同步管道链路构建;2)强大的数据预处理支持,包括 SELECT、WHERE、计算列、表达式,提供丰富的内置函数,同时支持 UDF;3)自动化、细粒度的 Schema 变更,表结构变更自动同步,无需作业启停,根据容错和演进策略,支持细粒度控制。这种能力使 Flink CDC 成为 Canal、Debezium、Maxwell、各种数据同步集成工具的理想替代品,实现 "One SQL,One Job,Distributed" 的统一数据集成架构,显著降低数据集成复杂度,提升数据新鲜度,加速数据价值变现。

幻灯片21.png

实时入湖入仓–CDC Yaml 三大优势

阿里云实时计算 Flink 版的 CDC YAML 配置模式提供三大核心优势,重构数据集成体验。首先,配置型端到端数据管道极大简化开发流程,用户仅需一个 YAML 配置文件即可完成从数据源到数据目标端的完整数据同步管道链路构建,无需编写复杂代码,降低技术门槛,加速实施进程。其次,强大的数据预处理支持使数据在传输过程中即可完成转换,支持 SELECT、WHERE 条件过滤、计算列定义、表达式计算等操作,提供丰富的内置函数库,同时支持用户自定义函数 (UDF),满足复杂业务逻辑需求,减少额外处理环节。第三,自动化、细粒度的 Schema 异动机制确保数据管道长期稳定运行,表结构变更自动同步至下游,无需作业启停,极大提升业务连续性;根据容错和演进策略,支持细粒度控制变更传播行为,平衡数据一致性和系统稳定性。这三大优势共同构建了高效、灵活、可靠的数据集成解决方案,使实时数据管道构建如同配置而非编程,显著提升开发效率与系统稳定性。

幻灯片22.png

实时入湖入仓–MySQL CDC 企业级性能优化

阿里云实时计算 Flink 版针对 MySQL CDC 场景进行多项企业级性能优化。优化措施包括:1)Binlog Bump 参数优化,调整 Debezium 相关参数,对比开源 Flink CDC 性能提升 11%,提升效果取决于过滤数据量;2)过滤无关表数据,MySQL CDC 消费整个实例 Binlog,跳过不匹配表的数据可加速解析,性能提升取决于无关表数据占比;3)并行解析 Binlog,将 Binlog 解析字节流从单线程优化为多线程,提升解析速度,对比开源 Flink CDC 性能提升 14%;4)并行序列化,通过火焰图分析发现 CPU 在 Event 到 SourceRecord 及 SourceRecord 到 JSON 序列化过程耗时较多,优化为并行序列化并保序,对比开源 Flink CDC 性能提升 42%。综合这些优化,当 Binlog 仅包含单个表数据时,普适性能提升约 80%;当 Binlog 包含多个表数据且 YAML 作业仅需同步部分表时,性能提升可达 10 倍左右。这些优化显著提升数据同步效率,降低资源消耗,加速数据价值变现,为用户提供卓越的实时数据集成体验。

幻灯片23.png

动态 CEP

阿里云实时计算 Flink 版提供动态 CEP (Complex Event Processing,复杂事件处理) 能力,解决事件序列匹配问题。CEP 用于识别特定事件序列模式,如 "做了事件 A"、"做了事件 A 紧接着做了事件 B"、"做了事件 A 且 N 分钟后做了事件 B"、"做了事件 A 且 N 分钟后没有做事件 B"、"没做事件 A" 等场景。典型应用场景包括:用户 B 在 5 分钟内购买金额 "超过 300 元";用户 A 在 5 分钟内下单次数 "超过 150 次";用户 A 在 5 分钟内依次做了点击、收藏、加购;用户 B 在 30 分钟前领了优惠券但未下单;5 分钟内同一账号登录请求超过 50 次视为爆破攻击等。传统 CEP 实现中,规则变更需重启任务,影响业务连续性。阿里云 Flink 动态 CEP 将规则保存在 RDS 中,实现规则 CRUD 与程序变更解耦,可在不重启任务情况下调整时间窗口和规则。CEP 规则更新后,作业无需重启即生效,保障业务实时在线。这种架构特别适合构建实时风控、安全告警等对业务连续性要求高的场景,使平台方可将规则管理交给业务人员和运营人员,无需频繁修改作业、走上线流程、停机给窗口,提升业务敏捷性。

幻灯片24.png

流式湖仓 Apache Paimon 能力

阿里云实时计算 Flink 版深度集成 Apache Paimon,提供高效流式湖仓能力。Apache Paimon 是阿里云团队孵化并贡献给 Apache 社区的顶级项目,全球四大湖格式之一,具备卓越的流批一体特性。Paimon 通过 LSM (Log-Structured Merge-Tree) 提供优秀数据更新能力,支持宽表构建;通过 LSM 中排序的 ORC 文件,提供良好查询性能;支持 Log Store + Lake Store 模式,满足不同时效性流式消费需求;支持对历史 Partition 的 Overwrite;提供基于 LSM 的高效点查能力,可作为维表进行数据丰富;开放支持各类 OLAP 引擎进行查询。基于 Paimon 构建的流式数据仓库 (Streaming Data Warehouses) 支持流式 / 增量查询、有状态计算、基于 LSM 的出色数据更新能力、高效点查,以及被各种引擎支持的开放湖格式。Paimon 表文件保存在文件存储中,LSM 支持数据更新和删除,采用列式存储,支持压缩,可一次性读取全量数据。Paimon 与 Flink 深度集成,为用户提供从数据采集、处理到分析的一体化解决方案,实现真正意义上的湖仓一体架构,消除数据孤岛,加速数据价值变现。

幻灯片25.pngFluss 湖流一体架构

阿里云实时计算 Flink 版推出 Fluss,一个湖流一体架构的实时流存储,适用于实时计算的秒级存储。Fluss 架构由服务器集群、远程存储 (S3/OSS/HDFS)、湖仓存储 (Paimon/Iceberg*) 和 Compaction Service 组成。数据从 Databases、Logs 等源通过 Streaming Writes 进入 Fluss 集群,支持 Real-Time Updates。Compaction Service 负责将 Fluss 中数据压缩成标准湖格式,供外部引擎读取。最新数据在 Fluss 中,历史数据在 Paimon 中,Flink 可 Union Fluss 和 Paimon 中数据,实现极致数据新鲜度。Fluss 的核心价值在于:1)湖流一体能力,内置湖流通道服务,流存储数据通过文件到文件转换高效入湖,元数据变化自动同步,一份数据流存 7×24h→1h,简化链路,降低开发运维成本;2)高效流式湖仓,支持流读、批读、流写、批写,通过 LSM 提供数据更新能力,优化查询性能;3)全链路秒级支持,数据写入即可见,端到端秒级完成,满足严格实时性要求;4)实时宽表新方案,支持部分列更新,且更新后仍能生成 Binlog,支持基于主键的多流实时拼接,具备独有 Delta Join 能力,避免大状态造成 Flink 作业高成本和稳定性问题,100TB 大状态作业 CU 降低 86%,Checkpoint 耗时 90s→1s。这种架构设计实现了湖与流的无缝融合,为实时分析提供统一数据视图。

幻灯片26.pngFlink+Fluss:高性能低成本湖流一体方案

阿里云实时计算 Flink 版与 Fluss 结合,构建高性能低成本湖流一体方案。Fluss 基于 Apache Arrow 列存储,支持列裁剪、分区下推、条件下推、聚合下推,大幅降低 IO 成本,实现 10 倍性能提升。流查询下推能力使高吞吐、低延时成为可能,支持更新和 Binlog 订阅,数据写入即可见,端到端秒级完成全链路。Fluss 支持部分列更新,更新后仍能生成 Binlog,支持基于主键的多流实时拼接,具备独有 Delta Join 能力,避免大状态造成 Flink 作业高成本和稳定性问题。在 100TB 大状态作业场景下,计算资源 (CU) 降低 86%,Checkpoint 耗时从 90s 降至 1s。Fluss 内置湖流通道服务,流存储数据通过文件到文件转换高效入湖,元数据变化自动同步,一份数据流存 7×24h→1h,链路简化,开发运维成本显著降低。这种方案特别适合实时宽表构建、实时特征计算、实时数据湖更新等场景,为用户提供统一的数据访问接口,消除数据孤岛,加速数据价值变现,同时保持高性能与低成本的平衡。

幻灯片27.png

基于大语言模型的实时数据处理

阿里云实时计算 Flink 版提供与大语言模型集成的能力,支持在实时数据处理中直接调用大模型服务。产品内置 AI SQL Function,提供强大的 ML_PREDICT 函数,支持在 SQL 流处理中直接调用大语言模型服务,完全兼容 OpenAI API,各种模型可无缝接入。产品支持 Chat 和 Embedding API,实现文本理解与向量化。在向量数据库集成方面,产品内置 Milvus 连接器,支持高性能写入向量数据,实现毫秒级流数据相似性搜索,与 Apache Flink SQL 生态系统无缝集成。典型应用场景包括情感分析、实时内容分类打标、温度感知、智能推荐、及时个性化推荐、RAG 实时知识更新等。这种能力使 Flink 成为连接实时数据与大模型的桥梁,为用户提供智能化的实时数据处理体验,将传统数据分析升级为智能决策支持,显著提升业务价值。通过 SQL 接口调用大模型,降低 AI 使用门槛,使数据工程师和业务分析师能够轻松构建智能应用,加速 AI 在企业中的落地。

幻灯片28.png

实时流处理 AI 函数库

阿里云实时计算 Flink 版提供丰富的实时流处理 AI 函数库,覆盖多种智能处理场景。AI_CLASSIFY 文本分类函数根据预设类别对输入文本进行智能分类,返回每个类别的置信度分数,典型应用包括客服工单自动归类、内容标签生成、多类别文档路由。AI_SENTIMENT 情感分析函数实时分析文本情感倾向,输出量化分数及正向、负向、中性标签,应用于用户评论情感监测、社交媒体舆情分析、品牌口碑追踪。AI_EXTRACT 信息提取函数基于 JSON Schema 定义,从非结构化文本中精准提取结构化字段(姓名、电话、地址等),适用于表单信息解析、简历数据提取、合同关键字段识别。AI_SUMMARIZE 摘要生成函数将长篇文本压缩为精简摘要,支持自定义目标长度参数,用于新闻文章摘要、会议纪要生成、长文档快速预览。AI_EMBED 向量化函数将文本转换为高维语义向量表示,为相似度计算和语义检索提供基础,支持相似内容推荐、语义搜索引擎、文本聚类分析。AI_TRANSLATE 文本翻译函数支持 10+ 语言间实时互译,内置自动语言检测机制,应用于多语言客服系统、跨境电商内容本地化、国际化内容流处理。AI_MASK 数据脱敏函数自动识别并屏蔽敏感信息(电话号码、身份证号、银行卡等),确保数据合规,用于日志脱敏处理、用户隐私保护、敏感数据流转管控。这些 AI 函数库使用户无需编写复杂 Prompt,即可快速获得相关能力,进行功能验证,加速智能应用构建。

幻灯片29.png

4、平台功能介绍

一站式开发运维平台

阿里云实时计算 Flink 版提供一站式开发运维平台,覆盖业务开发、调试测试、运行运维三大环节。在业务开发环节,平台提供 SQL 作业开发模版中心(20+ 模版),加速作业开发;提供 SQL 语法正确性检查,更清晰展示资源使用情况;支持 Catalog 元数据管理和引用。在调试测试环节,平台支持使用 Session 集群临时运行作业,控制台预览结果表数据,提供调试数据生成能力。在运行运维环节,平台提供作业提交启动能力、作业资源配置建议与自动调整、全新流批启动模式、状态集的生命周期管理、资源设置(资源配置建议)、200+ 作业诊断规则及风险提示等功能。平台支持一分钟上手 IDE,Flink SQL 一等公民,同时支持 Datastream Jar 与 PyFlink 提交。平台设计理念是让用户专注于业务逻辑,而非基础设施管理,提供从开发到运维的全流程支持,降低使用门槛,提高开发效率,实现快速价值交付。

幻灯片30.png

纯 SQL 开发,简单易用,专注业务

阿里云实时计算 Flink 版提供纯 SQL 开发体验,简单易用,让用户专注业务逻辑。平台提供 SQL Web-IDE 可视化编辑器,支持 SQL 语法校验和完善错误提示,支持 SQL 数据探查和 DDL 运行,支持用户自定义 UDF 上传、使用和管理,支持 SQL 版本管理和文件夹组织,支持 Catalog 管理表信息,提供 21 种 SQL 模版快速上手,提供 SQL 可优化项分析,支持全局代码搜索方便查找。开发体验优化包括全局代码搜索功能,方便查找相关代码;提供详细语法错误提示,帮助用户快速定位和修复问题;支持 SQL 版本管理,便于团队协作和代码回溯;提供丰富 SQL 模版,覆盖常见使用场景,加速开发进程;内置 SQL 优化建议,帮助用户编写高性能查询语句。这些功能共同构建高效、易用的 SQL 开发环境,降低用户学习成本,提高开发效率,使数据工程师和业务分析师能够轻松使用 Flink 进行实时数据处理,无需深入理解底层技术细节,专注于解决业务问题。

幻灯片31.png

统一元数据管理带来的开发便捷

阿里云实时计算 Flink 版提供统一元数据管理能力,整合数据仓库、消息队列、数据湖、数据库等多种数据源的元数据。通过 Catalog 机制,平台支持十多种湖、仓、数据库、消息队列的元数据使用和管理,方便用户查看数据源的数据,支持结果表的 Preview 查询展示,提供系统函数和自定义 UDF 的验证能力。统一元数据管理带来的开发便捷性体现在:用户无需在 Flink 中重复定义外部数据源的表结构,Catalog 自动同步元数据,减少开发工作量;提供直观的数据预览功能,帮助用户理解数据结构和内容;支持跨数据源的联合查询,简化复杂数据处理逻辑;提供元数据血缘追踪,帮助用户理解数据流动和转换过程;支持统一的权限管理,保障数据安全。这种统一元数据管理能力极大提升开发效率,降低使用复杂度,为用户提供一致的数据访问体验,使数据工程师能够专注于业务逻辑而非数据源适配,加速数据价值变现。

幻灯片32.png

简单快速实现SQL调试,支持模拟数据生成

阿里云实时计算 Flink 版提供快速 SQL 调试能力,支持模拟数据生成,加速开发验证过程。平台支持手动上传 CSV 文件作为测试数据,支持选择部分语句单步调试,支持 Session 集群作业启停迅速,加速调试过程。平台提供模拟数据生成功能,可配置行数、速率、格式、范围等参数,更便捷地生成贴近业务含义的测试数据,满足开发测试中验证业务逻辑的需要。调试体验如同使用数据库一样进行 SQL 调试,直观易用。Session 集群是临时运行作业的理想环境,启动速度快,资源消耗小,适合开发阶段的快速迭代。平台还提供结果表的 Preview 功能,允许用户直接在控制台查看查询结果,无需额外配置输出目标。模拟数据生成功能支持多种数据类型和分布模式,可根据业务场景定制测试数据,提高测试覆盖率。这些调试功能共同构成高效开发测试环境,显著缩短从开发到上线的周期,降低试错成本,提升开发体验。

幻灯片33.png

作业异常判断、监控与告警

阿里云实时计算 Flink 版提供全链路秒级监控、智能告警与异常事件订阅能力,实现故障定位与根因溯源。平台支持多渠道集成云监控:无订阅费用、免运维、监控与告警管理免费,提供作业基础可观测性以及监控告警能力;支持 ARMS:提供全面托管的 Flink Prometheus 服务,支持灵活查询语句 PromQL 以及数据可视化展示;支持自定义渠道:支持指标上报到自建 Prometheus、日志服务 SLS、Kafka 或自建平台等自定义多渠道;支持 OpenAPI 集成:通过 OpenAPI 调用进行监控告警集成。在灵活监控告警方面,平台提供指标告警能力:支持单指标 / 多指标,单作业 / 批量告警配置,涵盖作业重启、业务延时、Checkpoint 告警等异常场景;提供事件告警能力:作业运行失败、ECS 宕机事后处理和 ECS 主动运维影响事件,工作流告警事件订阅;提供告警通知能力:支持通过电话、短信、邮件、钉钉、企业微信、飞书和 Webhook 方式向联系人发送告警通知,支持排班通知。平台监控覆盖多维度:支持 Job、JM、TM、Operator 等多级别监控指标;多模块:涵盖 Overview、Checkpoint、State、JVM、CPU、IO、Connector 等几十大类 100+ 内置指标;多场景:算子反压、数据倾斜、性能瓶颈等常见场景全覆盖。这种全链路可观测性与精准告警能力,帮助用户及时发现和解决问题,保障业务稳定性,降低运维复杂度。

幻灯片34.png

日志管理

阿里云实时计算 Flink 版提供大规模实时作业海量日志的完善管理能力,保障系统可观测性与运维效率。平台提供自动日志采集与统一管理:集成主流日志框架(Log4j),通过 LogAgent 自动采集 JobManager、TaskManager 日志,实现全组件日志集中化管理;提供实时日志查看与历史追溯:通过 Flink 控制台实时查看运行中作业的日志输出,同时支持查看历史作业日志便于故障回溯与审计分析(默认 7 天,可自定义配置);提供多维度日志分类与查看:启动、运行、异常日志、作业事件全生命周期覆盖,异常智能诊断精准定位排查;支持动态调整修改运行日志级别:支持修改整个 JM、单个 TM 日志级别(包含 Trace、Debug、Info、Warn、Error),便于线上调试与问题诊断;支持多渠道外部存储配置:支持根据日志级别将作业日志配置输出至外部存储(OSS、SLS 或 Kafka)后进行查看,后续集成外部存储告警(SLS 告警中心);支持自定义模板日志配置管理:通过自定义模板灵活配置管理日志,满足不同业务场景下的日志格式、采集粒度和存储策略需求,提升日志的规范性与可维护性。这种日志全托管能力,使运维更加高效,问题排查更加快速准确,为用户提供企业级的日志管理体验。

幻灯片35.png

数据血缘

阿里云实时计算 Flink 版提供数据血缘查看能力,帮助用户了解生产消费关系。平台自动分析表之间的依赖关系、表、字段之间的从属关系,以可视化方式展示数据流动。在数据血缘图中,从作业节点指向数据节点的边表示作业生产了该数据节点的数据;从数据节点指向作业节点的边表示作业消费了该数据节点的数据。数据血缘能力帮助用户理解数据流动路径,识别关键数据资产,评估变更影响范围,支持数据治理和合规需求。当作业出现异常时,用户可通过数据血缘快速定位问题源头,减少故障排查时间;在进行架构优化时,数据血缘提供全局视角,帮助识别冗余计算和存储,优化资源使用。这种能力对大规模数据平台尤为重要,随着作业和表数量增加,数据关系复杂度指数级增长,手动跟踪几乎不可能。数据血缘自动化这一过程,提供直观、准确的数据关系视图,提升数据治理效率,增强数据可信度,为数据驱动决策提供坚实基础。

幻灯片36.png

作业资源自动调优-智能调优

阿里云实时计算 Flink 版提供作业资源智能调优能力,解决用户对作业资源配置和调优的问题。Autopilot 系统工作流程包括:采集 Flink Metric 和其他诊断系统指标,分析综合各指标生成调优计划,执行计划。系统通过 Flink Restful API 和作业管理平台,动态更新作业配置或重启作业应用新配置。Autopilot 解决资源配置不当问题:过高配置导致资源利用率低、成本高;过低配置导致作业吞吐低、延迟高、启动速度慢、易发生 Failover。系统通过分析作业瓶颈,如 Agg 算子处理能力达到瓶颈时,推断可加入 MiniBatch 配置优化性能。指标分析结合原始 Metric,计算得出复合型 Metric,如延迟是否可 Catch Up、是否数据倾斜等。系统依赖强大丰富的决策树和 Metric,生成调优计划,如拆 Chain、提高 / 减少并发度、提高 / 减小内存、添加 Flink Conf 等。在多项调优计划中选择最佳计划执行,调用 Flink Restful API 运行时动态更新配置,速度更快,用户无感知;或调用作业管理平台启停作业,应用最新配置,可执行策略更丰富。这种智能调优能力帮助用户自动优化资源配置,提高资源利用率,保障作业性能,降低运维复杂度,使用户无需成为 Flink 专家即可获得最佳性能。

幻灯片37.png

作业资源自动调优-定时调优

阿里云实时计算 Flink 版提供作业资源定时调优能力,适用于存在潮汐流量、流量有明显时间区间特征的场景。很多业务具备可预见性、周期性的流量高峰段和低谷段,如电商平台每年双十一、直播平台晚高峰时期。用户可根据压测确定的资源用量,设定 Flink 作业不同时段的资源使用量,为业务洪峰提前做好资源准备。Autopilot 定时调节机制通过作业管理平台,部署集群、更新作业配置、重启作业,实现资源配置 1 和资源配置 2 的定时切换。例如,可配置 19:00 到次日 09:00 业务低谷期间使用 10 并发度,09:00~19:00 业务高峰期间使用 30 并发度。这种能力使用户能够根据业务规律预先规划资源,避免资源浪费和性能瓶颈,优化成本效益比。与智能调优相比,定时调优更适合流量模式稳定、可预测的场景,而智能调优更适合流量波动不可预测的场景。两种策略可结合使用,为用户提供全方位的资源优化解决方案,确保在任何业务条件下都能获得最佳性能与成本平衡。

幻灯片38.png

作业资源智能调优+混合计费="真"为使用付费

阿里云实时计算 Flink 版结合作业资源智能调优与混合计费模式,实现「真」为使用付费。计费模式上,产品支持 0.38 元 / CU / 小时的按量付费和 180 元 / CU / 月的包月付费。在相同一个月内,30CU 包月花费 5400 元,而 10CU 包月 + 20CU 每天使用 8 小时仅需花费 1800 + 1824 元,成本降低 49%。这种混合计费模式与智能调优能力相结合,为用户提供极大的成本优化空间。智能调优根据实际业务处理复杂度与数据流量,进行资源动态调整,解决用户如何对作业资源配置和调优的问题。过高配置导致资源利用率低成本高,过低配置导致作业吞吐低、延迟高、启动速度慢、易发生 Failover。系统通过分析作业指标,如是否数据倾斜、延迟是否可 Catch Up 等,生成调优计划,如拆 Chain、调整并发度、修改内存配置、添加 Flink Conf 等。Autopilot 可实时监测作业流量峰谷,重启作业用户不感知;或根据潮汐流量特点,设定定时策略,一次性提前做好资源准备。这种「智能调优 + 混合计费」模式,使用户真正为实际使用的资源付费,避免资源浪费,降低总体成本,提高投资回报率,为企业提供经济高效的实时计算解决方案。

幻灯片39.png

作业智能诊断

阿里云实时计算 Flink 版提供作业智能诊断能力,覆盖作业从开发、运行到异常的全生命周期。平台提供 500+ 项高频错误日志诊断能力,在作业开发态上线编译时自动诊断错误;在作业运行态,产品后台实时监控分析,计算作业稳定性健康分;在作业异常态,提供一键诊断根因及改进建议,具备 30+ 种作业异常 / Failover 等诊断能力。诊断能力包括:1)作业启动诊断:启动报错或速度过慢诊断,包括上下游权限、启动速度等诊断;2)作业异常诊断:运行 Failover 异常、HA 开关、Checkpoint、性能延迟等诊断;3)作业资源诊断:集群剩余资源不足、弹性网卡 ENI 的 IP 用量超过网络上限等诊断。这些诊断能力通过智能算法自动分析作业状态,提供精准问题定位和解决建议,大幅降低运维门槛,提升问题解决效率。用户无需深入了解 Flink 内部机制,即可快速解决常见问题,保障业务稳定运行。诊断系统结合历史数据和专家知识库,持续学习优化,提供越来越精准的诊断结果,使 Flink 运维从艺术变为科学,让企业能够专注于业务创新而非基础设施维护。

幻灯片40.png

Flink 作业 State 的全生命周期管理

阿里云实时计算 Flink 版提供 Flink 作业 State 的全生命周期管理能力,对用户业务稳定性、业务连续性、灵活性至关重要。State 管理能力包括:1)状态生成与删除:状态定时或手动生成与清理;2)状态展示:状态中间数据查询、基于状态的作业分析;3)状态的使用:作业启动的状态恢复、开源 Flink 迁移上云的状态复用、作业间的状态复用、本地状态的快速恢复;4)状态兼容性能力:基于状态迁移的兼容性提升;5)状态集列表的展示与监控。Flink 作业有状态计算,状态数据是业务逻辑的核心,其管理直接影响作业性能和稳定性。阿里云平台提供直观的状态监控界面,帮助用户了解状态大小、访问模式、Checkpoint 性能等关键指标。状态兼容性检查确保作业升级或迁移时状态数据的有效性,避免数据丢失。状态的快速恢复能力降低作业重启时间,提高业务连续性。状态中间数据查询功能支持基于状态的作业分析,帮助用户理解状态数据分布和变化趋势。作业间状态复用能力支持构建复杂数据处理流水线,避免重复计算。这些能力共同构建完善的状态管理体系,为用户提供稳定、高效的状态计算体验,是企业级 Flink 应用的关键支撑。

幻灯片41.png

同城高可用

阿里云实时计算 Flink 版提供同城跨可用区容灾能力,保障业务高可用。平台支持同城跨可用区作业运行能力,同一个作业在一个可用区,当出现问题时系统会在另一个可用区带状态拉起(项目空间级别)。用户可在已有项目空间级别直接开启或关闭同城高可用;高可用区升级需先进行网络架构升级,可大幅优化 IP 资源使用效率,每工作空间仅需 2-3 个 IP;仅包年包月模式下支持高可用。具体指标描述:1)项目空间级别:支持对工作空间下按项目空间粒度按需购买跨可用区类型 CU;2)RPO / RTO:Flink 状态存储基于对象存储,跨可用区数据不丢失,可支持任务状态正常拉起,RPO = 0;当监测到主可用区 Flink 服务不可用时会自动拉起备份可用区的资源并带状态启动任务,RTO 一般为分钟级;3)性价比:同城高可用容灾溢价为 40%。同城高可用架构为用户提供企业级业务连续性保障,满足金融、政务等对数据安全和业务连续性要求高的场景需求。通过自动化故障转移机制,用户无需手动干预即可实现服务恢复,极大降低运维压力和业务风险,是构建关键业务系统的基础保障。

幻灯片42.png

企业级安全能力

阿里云实时计算 Flink 版提供全面、多层次的安全管理能力,持续保护云上数据及服务安全。平台安全架构分为三个层次:Flink 平台系统安全、Flink 基础设施安全、Flink 服务部署环境。在安全隔离方面,平台提供网络隔离:基于 VPC 专有网络,安全可靠、灵活可控;支持上下游服务域名管理;通过阿里云 NAT 网关实现 VPC 网络与公网网络互通。平台提供租户隔离:多租户资源隔离、用户数据存储隔离。在访问控制与权限管控方面,平台集成阿里云账户体系身份识别,全面适配阿里云账号、资源目录、云 SSO 等;集成 RAM 权限控制,支持 RAM 用户以及角色登录鉴权;提供 RBAC 细粒度权限管理,支持内置角色以及自定义角色,实现细粒度操作授权。在数据安全方面,平台提供密钥托管能力,支持配置密钥,避免明文 AccessKey 带来的安全风险;采用存储计算分离架构,支持自动备份恢复;对接 ActionTrail 实现操作审计,支持对事件的监控告警、及时审计、问题回溯分析。这种多层次安全架构,保障用户数据和服务安全性,满足企业级安全合规要求,为用户提供可信赖的实时计算服务,是构建安全、合规数据平台的基础。

幻灯片43.png

灵活的被集成能力

阿里云实时计算 Flink 版提供灵活的被集成能力,支持多种集成方式,满足企业 Devops 需求。平台核心概念包括:1)作业部署:Deployment 对象在 UI 上承载了 Vvp 开发生产隔离能力,本质是开发作业草稿的拷贝,提供作业部署增删改查能力;2)作业配置:Resource 对象由 Flink Conf 配置文件和用户资源配置(粗粒度 / 细粒度)两部分组成,提供资源配置和参数配置能力;3)作业运行:Flink 作业的运行实例,提供启停和查询运行作业能力;4)状态管理:Flink 运行过程中的 Checkpoint 和 Savepoint 统称,提供创建、删除、查询状态能力。集成方式包括本地 VSCode 开发调试、标准 Openapi、CI / CD + Git 集成。平台提供完善 Openapi 接口,支持与 Jenkins、Gitlab CI / CD 等三方 CI / CD 工具集成,实现自动化部署和测试。本地 VSCode 插件提供与云平台无缝衔接的开发体验,支持代码编辑、调试、部署全流程。这种灵活集成能力,使平台能够融入企业现有技术栈和工作流程,提升团队协作效率,加速价值交付,是企业级平台的关键特性,支持现代 Devops 实践,促进持续集成和持续部署。

幻灯片44.png

基于 Git 集成的 CI/CD 能力

阿里云实时计算 Flink 版提供基于 Git 集成的 CI / CD 能力,实现代码版本管理、协作开发与持续集成。平台核心功能包括:1)无缝 Git 仓库对接:支持 GitHub / GitLab / Bitbucket 等主流平台,一键授权绑定,无需手动下载上传代码;2)自动化代码同步:自动触发代码更新与同步,支持手动同步模式(控制台 Pull、Push 一键触发);3)无缝集成 CI / CD 流水线:通过 OpenAPI 与 Jenkins、GitLab CI / CD 等三方 CI / CD 工具集成。产品价值体现在:1)高效协作:团队成员实时同步开发进度,减少沟通成本;2)版本安全:完整保留代码变更历史,支持快速回溯和问题定位;3)简化流程:无缝整合开发与部署流程,提升 DevOps 效率;4)规范管理:促进代码审查和标准化流程,提升代码质量。基于 Git 的 CI / CD 能力将 Flink 作业开发纳入现代软件工程实践,提高代码质量,降低发布风险,加速迭代速度。团队可建立标准分支策略、代码审查流程和自动化测试体系,确保每次变更都经过充分验证,提高生产环境稳定性。这种能力对大型团队尤为重要,支持并行开发、特性分支、发布管理等复杂工作流程,是构建高质量、可维护数据应用的基础。

幻灯片45.png

总结与展望

阿里云实时计算 Flink 版是基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品。产品提供双引擎架构(VVR+Flash),在性能、功能、稳定性方面全面超越开源版本;提供一站式开发运维平台,简化用户使用体验;支持丰富的上下游连接器,覆盖主流数据源和目标;提供动态 CEP、实时入湖入仓、湖流一体存储(Fluss)、大模型集成等企业级能力;保障业务连续性和数据安全,满足企业级应用需求。

未来,阿里云将持续推动Flink技术进步,深化湖仓一体架构,增强AI与实时计算融合,打造更易用、更强大、更安全的实时计算平台,持续引领实时计算技术发展,为用户提供卓越产品和服务。


更多内容


活动推荐

复制下方链接或者扫描左边二维码

即可免费试用阿里云 Serverless Flink,体验新一代实时计算平台的强大能力!

了解试用详情:https://free.aliyun.com/?productCode=sc

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
5月前
|
存储 SQL 缓存
Delta Join:为超大规模流处理实现计算与历史数据解耦
Delta Join(FLIP-486)是Flink流式Join的范式革新,通过将历史数据存储与计算解耦,实现按需查询外部存储(如Fluss、Paimon),避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题,显著降低资源消耗:状态减少50TB,成本降10倍,Checkpoint从小时级缩短至秒级,恢复速度提升87%。兼容标准SQL,自动优化转换,适用于海量数据实时关联场景,推动流处理迈向高效、稳定、可扩展的新阶段。
575 1
Delta Join:为超大规模流处理实现计算与历史数据解耦
|
2月前
|
人工智能 Java API
Apache Flink Agents 0.2.0 发布公告
Apache Flink Agents 0.2.0发布!该预览版统一流处理与AI智能体,支持Java/Python双API、Exactly-Once一致性、多级记忆(感官/短期/长期)、持久化执行及跨语言资源调用,兼容Flink 1.20–2.2,助力构建高可靠、低延迟的事件驱动AI应用。
565 9
Apache Flink Agents 0.2.0 发布公告
|
6月前
|
存储 分布式计算 运维
云栖实录|驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践
零跑科技基于Flink构建一体化实时计算平台,应对智能网联汽车海量数据挑战。从车机信号实时分析到故障诊断,实现分钟级向秒级跃迁,提升性能3-5倍,降低存储成本。通过Flink+Hologres+MaxCompute技术栈,打造高效、稳定、可扩展的实时数仓,支撑100万台量产车背后的数据驱动决策,并迈向流批一体与AI融合的未来架构。
420 3
云栖实录|驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践
|
15天前
|
人工智能 安全 Linux
向日葵MCP服务上线魔搭:赋予AI“远程操控万物”的超能力
向日葵MCP服务正式上架魔搭社区!将成熟远控能力封装为AI可调用的标准化接口,支持跨平台(Win/macOS/Linux/鸿蒙)、软硬协同(含BIOS级控制与智能插座开机),赋予AI“数字手脚”,实现设备管理、远程操作、自动安装OpenClaw等全流程自动化,安全可控、开箱即用。
202 17
|
15天前
|
SQL 人工智能 弹性计算
阿里云快速部署OpenClaw,9.9元定制AI助理,快速拥有OpenClaw超级助理!
阿里云推出OpenClaw一键部署方案,新用户首月仅9.9元!零代码、10分钟极速搭建,即可拥有可执行任务、有记忆、高定制的本地优先AI智能体。支持文件管理、邮件处理、代码编写等实操,兼容通义千问等大模型,安全稳定、普惠易用。
228 6
|
15天前
|
机器学习/深度学习 数据采集 人工智能
别再从零训练了:用迁移学习“借力打力”,小数据也能玩转大模型
别再从零训练了:用迁移学习“借力打力”,小数据也能玩转大模型
144 15
|
14天前
|
前端开发
前端开发 之 15个页面加载特效下【附完整源码】
本篇文章内容展示了铜钱3D圆环加载、圆环显现加载、扇形百分比加载等页面炫酷加载特效,并给出了完整的代码及注释
115 8
|
3月前
|
机器学习/深度学习 人工智能 测试技术
重磅!千问最强模型正式发布
阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking:参数超万亿、预训练数据达36T Tokens,规模与能力均为当前最强。采用全新测试时扩展机制,推理更智能、更经济;原生Agent能力大幅增强,可自主调用工具。开发者与用户均可免费体验。
2282 1
重磅!千问最强模型正式发布
|
2月前
|
消息中间件 存储 Kafka
基于Flink CDC的企业级日志实时入湖入流解决方案
本文由阿里云Flink CDC负责人徐榜江与高级产品经理李昊哲联合撰写,详解企业级日志实时入湖入流方案:基于YAML的零代码开发、Schema自动推导、脏数据处理、多表路由及湖流一体(Fluss+Paimon)架构,显著提升时效性与易用性。
334 2
基于Flink CDC的企业级日志实时入湖入流解决方案