FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

生产实践专场集结字节跳动、华为、蚂蚁金服、Shopee、B 站、快手、腾讯、京东物流、小红书的技术专家探讨基于 Flink 的实时场景下技术优化及实践。

Flink 易用性和稳定性在 Shopee 的优化

范 瑞|Tech Lead of Shopee Flink Runtime Team,Apache Flink&Streampark Committer

潘月鹏|Shopee Senior Engineer,Apache StreamPark Committer, Apache Flink Contributor

议题介绍:

本次分享的大部分内容已经(或正在)回馈给 Flink 社区,关注分享及时了解社区动态。

大纲:

一、Troubleshooting 流程优化

  • 作业重启排查流程优化

  • 作业 lag 排查流程优化

二、稳定性优化

  • Container 资源隔离与优化

  • State 和 Checkpoint 的优化

  • 优化 Watermark alignment 达到生产可用

  • 提供更智能更易用的 Restart strategy

三、Task 均衡性调度的优化以及在社区的进展

  • Flink 默认调度器的痛点

  • Task 均衡性调度的原理

  • Task 均衡性调度在社区的进展

  • 收益分析

四、未来规划

  • 优化 Flink 热更新并行度的能力,实现秒级原地扩缩容

  • 基于 Autoscaler 与并行度的热更新实现并行度全托管

B 站 Flink 作业全链路效率优化实践

丁国涛|bilibili 基础架构部资深开发工程师

议题介绍:

本次分享主要介绍 Flink 在 B 站的全链路效率优化的实践,主要包含以下几方面内容:

一、B 站 Flink 现状与挑战

1.1 当前现状

1.2 面临的问题与挑战

二、启动效率优化

2.1 启动效率量化

2.2 启动效率优化

2.3 优化效果

三、运行时容错效率优化

3.1 JobManager HA 优化

3.2 Regional Checkpoint

3.3 Flink SQL 连接关系优化

3.4 单点恢复

四、扩缩容效率优化

4.1 热扩缩方法

4.2 效果展示

五、未来展望

5.1 任务异步重启

5.2 更完备的热扩缩支持

快手 Flink 超大规模生产可用改造

刘建刚|快手技术专家

议题介绍:

一、稳定性建设,讲述快手 Flink 大规模 AZ 逃生能力。

二、Flink runtime adaption 能力建设,主要讲述动态灰度升级。

三、Flink on K8S 技术改造和大规模迁徙。

腾讯基于 Flink 的实时场景下技术优化及实践

张 蛟|腾讯云流计算研发资深高级开发工程师,Apache Flink Contributor

议题介绍:

一、腾讯基于云原生 Flink 的背景及发展现状

二、基于 Flink+数据湖实现流批一体遇到的问题、解决方案及效果

三、针对实时场景下 Flink State 大状态存在的内存及性能问题,优化方案与效果

四、Flink Trace 解决 Flink、Flink Sql、Flink CDC 下的调试困难问题,实现全链路数据跟踪与监控

五、后续的规划及展望

字节跳动实时数仓质量与成本治理平台实践

朱福生|字节跳动数据工程师

议题介绍:

随着业务对数据时效要求的提升和实时任务数量的不断增加,字节跳动已运行了上万的 Flink 实时任务,由于实时任务依赖的组件繁多、开发人员众多 、开发习惯和经验参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此任务治理势在必行,但纵观整个治理过程,仍存在以下矛盾:业务与治理的矛盾、人力与治理的矛盾、问题与可评价的矛盾。本文以下四个方面来介绍实时数仓治理平台如何让实时治理简单、高效、可持续化

一、实时数仓治理平台背景

二、实时数仓治理平台体系

三、实时数仓治理平台收益

四、实时数仓治理平台规划

Flink 自动化运维的大规模落地实践

陈张昊|字节跳动基础架构工程师,Apache Flink Contributor

议题介绍:

过去几年中,字节跳动内部 Flink 作业规模逐渐增长到数万量级,业务有限的人力趋于无力应对随流量变化需人工调优资源配置、单机问题易导致慢节点需人工迁移等带来的运维压力。面对运维难题,沉淀出一套 Flink 自动化运维体系,并在内部大规模落地实践:托管了 1.5W+ 任务,在流量变化时自动扩缩容以避免消费积压的同时可以提升资源使用率、每日自动迁移 1K+ 次慢节点消除消费积压,有效减轻了业务的 Flink 作业运维压力。本次分享我们将从以下 5 个方面介绍 Flink 自动化运维的落地实践。

一、Flink 业务运维难题背景

二、自动化运维系统的整体架构

三、自动扩缩容的实现与生产实践

四、慢节点自动迁移的实现与生产实践

五、未来与展望

Flink 流批一体在华为的平台建设以及应用实践

王 锋|华为技术专家

议题介绍:

一、Flink 流批一体低码数据开发平台建设

二、流批一体运维平台建设

三、流批技术项目演进。主要是体现在资源优化以及性能提升方面的技术项目演进。

四、行业实践。我们支撑场景较多,最近一次我们将流批一体应用在杭州亚运会的分钟级别计算上。

蚂蚁金服 Flink 自动调优实践

张永明|蚂蚁金服实时计算引擎团队技术专家

议题介绍:

一、背景与发展历程:介绍业务使用 Flink 时设置资源的痛点,以及蚂蚁内部在作业调优上尝试的各种方案

二、优化算法介绍 :

2.1 多目标优化算法架构和原理:介绍优化算法的原理以及在一些特殊场景下针对性优化

2.2 优化效果:总结上线后,对延迟作业的优化效果整体利用率的提升

三、集群模式上基于负载调度:介绍在集群模式上的资源画像算法,以及基于实际负载的调度算法

四、未来期望

我的 Flink 作业出了什么问题?如何做平台侧的智能诊断

陈 宇|小红书数据引擎开发工程师,Apache Flink Contributor

议题介绍:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题

二、我们在Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink 实时智能诊断在滴滴的探索与实践

梁钧宁|滴滴高级软件开发工程师

师彬杰|滴滴数据平台资深开发工程师

议题介绍:

本次演讲分为四大块内容:项目背景、诊断能力、成果展示、未来规划。

一、项目背景。介绍智能诊断的背景由来、痛点

二、诊断方案。介绍智能诊断的架构以及当前所具备的能力

三、诊断实践。展示部分诊断案例以及项目取得的阶段性成果

未来规划。智能诊断未来的发展方向。


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
25天前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
31 1
|
11天前
|
SQL 存储 API
Flink实践:通过Flink SQL进行SFTP文件的读写操作
虽然 Apache Flink 与 SFTP 之间的直接交互存在一定的限制,但通过一些创造性的方法和技术,我们仍然可以有效地实现对 SFTP 文件的读写操作。这既展现了 Flink 在处理复杂数据场景中的强大能力,也体现了软件工程中常见的问题解决思路——即通过现有工具和一定的间接方法来克服技术障碍。通过这种方式,Flink SQL 成为了处理各种数据源,包括 SFTP 文件,在内的强大工具。
49 15
|
25天前
|
消息中间件 分布式计算 Hadoop
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
35 3
|
25天前
|
消息中间件 运维 Kafka
Apache Flink 实践问题之达到网卡的最大速度如何解决
Apache Flink 实践问题之达到网卡的最大速度如何解决
34 2
|
1天前
|
消息中间件 资源调度 API
Apache Flink 流批融合技术介绍
本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享,内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一,但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略,自动适应不同场景需求。文章详细介绍了如何通过量化指标(如isProcessingBacklog和isInsertOnly)实现这一目标,并展示了针对不同场景的具体优化措施。此外,还概述了社区当前进展及未来规划,包括将优化方案推向Flink社区、动态调整算子流程结构等。
136 31
Apache Flink 流批融合技术介绍
|
16天前
|
消息中间件 canal 数据采集
Flink CDC 在货拉拉的落地与实践
陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案,详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效,并展望了未来发展方向。
383 14
Flink CDC 在货拉拉的落地与实践
|
23天前
|
Oracle 关系型数据库 新能源
Flink CDC 在新能源制造业的实践
本文撰写自某新能源企业的研发工程师 单葛尧 老师。本文详细介绍该新能源企业的大数据平台中 CDC 技术架构选型和 Flink CDC 的最佳实践。
376 13
Flink CDC 在新能源制造业的实践
|
25天前
|
数据采集 分布式计算 Kubernetes
Apache Flink 实践问题之ZooKeeper 网络瞬断时如何解决
Apache Flink 实践问题之ZooKeeper 网络瞬断时如何解决
39 4
|
25天前
|
机器学习/深度学习 监控 Serverless
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
|
25天前
|
机器学习/深度学习 人工智能 运维
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向

热门文章

最新文章

相关产品

  • 实时计算 Flink版