《Apache Flink 案例集(2022版)》——5.数字化转型——联通-联通实时计算平台演进与实践

简介: 《Apache Flink 案例集(2022版)》——5.数字化转型——联通-联通实时计算平台演进与实践

用户背景

中国联合网络通信集团有限公司,是中华人民共和国一家主要从事通信业的中央企业,也是中国第三大电信运营商,在中国内地31个省、市、自治区运营移动与固网通信业务。


业务需求

电信行业的业务系统非常复杂,所以它的数据源也是非常多的,目前实时计算平台接入了 30 多种数据源,这 30 多种数据源相对于总的数据种类来说是比较小的。即使这样,联通的数据量也达到了万亿级别,每天有 600TB 的数据增量,而且接入的数据源种类和大小还在持续增长。平台的用户来自于全国 31 个省份公司以及联通集团的各个子公司,尤其是在节假日会有大量用户去做规则的订阅。用户想要获取数据,需要在平台上进行订阅,联通会将数据源封装成标准化的场景,目前已经有 26 种标准化场景,支撑了 5000 多个规则的订阅。


image.png


对于实时计算平台来说,实时性的要求是很高的。数据从产生到进入联通的系统,大概有 5~20 秒的延迟,经过系统正常处理之后大概有 3~10 秒的延迟,联通允许的最大延迟是 5 分钟,所以必须做好实时计算平台端到端的延迟的监控。


平台建设


2020 年以前,联通是使用 Kafka + Spark Streaming 的方案来实现的,而且是采购厂商的第三方平台,遇到了很多问题和瓶颈,难以满足日常的需求。与此同时,很多企业都正在进行数字化改革,系统的自研比例也越来越高,再加上需求的驱动,自研、可灵活定制、可控的系统迫在眉睫。在这个背景下,联通从2020 年开始接触Flink,并实现了基于Flink的实时计算平台。


image.png


既往平台存在的问题如上图所示。为了解决这些问题,联通自研了基于 Flink 的实时计算平台,根据每个场景的特点进行最优的定制,最大化资源的使用效率。同时利用 Flink 内置状态存储的特性减少外部依赖,降低了程序的复杂度,提升程序的性能。通过灵活定制实现了资源的优化,相同体量的需求下大大节约了资源。此外,为了保证系统的低延迟率,还进行了端到端的监控,比如增加了数据的积压、延迟、数据断传监控等。


image.png

联通的Flink集群需要日均处理 1.5 万亿数据,近 600TB 的数据增量,对稳定性的要求比较高,因此是独立搭建的。它独享了 550 台服务器,没有和离线计算混用。

 

image.png


联通对场景深度定制的主要原因是数据量大,同一个场景的订阅又非常多,而且每个订阅的条件又是不一样的。从 Kafka 读取一条数据的时候,这条数据要匹配多个规则,匹配中后才会下发到规则对应的 topic 里面。所以不管有多少订阅,只从 Kafka 中读取数据一次,这样能够降低对 Kafka 的消耗。


手机打电话或者上网都会连接到基站,相同基站的数据会按一定的时长窗口和固定消息进行压缩,比如三秒钟一个窗口,或者消息达到了 1000 再进行触发,这样下游接收到的消息就会有量级的降低。然后是围栏匹配,外部系统的压力是基于基站规模的,而不是基于消息数目。再就是充分利用了 Flink 的状态,当人员进入和滞留的时候会存入状态,用 RocksDB 状态后端减少了外部依赖,简化了系统的复杂度。此外,联通还实现了亿级标签的关联不依赖外部系统,通过数据压缩、围栏匹配、进入驻留、标签关联后才开始正式匹配规则。


用户订阅场景后,订阅的规则会以 Flink CDC 的方式同步到实时计算平台,这样可以保证延迟比较低。由于人群的进入滞留会存入到状态,基于 RocksDB 的状态后端数据量比较大,联通会通过解析状态的数据进行问题排查,比如用户到底有没有在围栏之中。


image.png


此外,联通还搭建了基于 Flink 的集群治理架构,通过采集资源队列的信息,解析 NameNode 的元数据文件 Fsimage,采集计算引擎的作业等信息等,对集群做 HDFS 画像、作业画像,数据血缘、冗余计算画像、RPC 画像以及资源画像。


image.png


联通通过基于Flink进行实时计算平台建设和集群治理,有效提高了计算资源的利用率,存储文件数降低 60% 以上,RPC 负载也大幅降低,从而解决了长期以来的资源紧张问题,降低了集群扩容开支,每年会有千万级别的成本节约。


未来规划


首先,目前联通还没有一个完善的实时流管理平台,且监控比较分散,研发通用的管理和监控平台势在必行。 其次,面对日益增长的需求,深度定制化虽然节约了资源,提升了支撑的规模,但是它的开发效率并不理想。针对数据量不大的场景,联通考虑使用 Flink SQL 来搭建通用的平台,以此来提升研发效率。 最后,联通会继续探索 Flink 在数据湖中的应用。



相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
4月前
|
存储 消息中间件 人工智能
Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
本文整理自 Lazada Group EVP 及供应链技术负责人陈立群在 Flink Forward Asia 2025 新加坡实时分析专场的分享。作为东南亚领先的电商平台,Lazada 面临在六国管理数十亿商品 SKU 的挑战。为实现毫秒级数据驱动决策,Lazada 基于阿里云实时计算 Flink 和 Hologres 打造端到端实时商品选品平台,支撑日常运营与大促期间分钟级响应。本文深入解析该平台如何通过流式处理与实时分析技术重构电商数据架构,实现从“事后分析”到“事中调控”的跃迁。
475 55
Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
|
7月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
565 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
2月前
|
存储 消息中间件 人工智能
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
本文根据 2025 云栖大会演讲整理而成,演讲信息如下 演讲人:黄鹏程 阿里云智能集团计算平台事业部实时计算Flink版产品负责人
261 1
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
|
7月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
235 12
|
3月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
328 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
3月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
404 4
|
4月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
331 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
4月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
520 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄

热门文章

最新文章

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多