Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线!
FFA 2022 官网:https://flink-forward.org.cn/
快手、美团、字节跳动、小米、运满满、蔚来汽车、中泰证券、中原银行、中信建投、中南电力设计院等多行业实时计算领域专家详细解读 Flink 在不同企业和行业内的应用与落地,围绕业务场景、业务痛点、面临挑战、如何破局等宝贵实践经验倾囊相授。
行业案例
运满满 实时计算实践和思考
欧锐|满帮实时计算团队负责人
- 实时计算在满帮的运用场景
- 满帮实时特征挖掘经验总结
- 满帮实时计算平台建设思考
- 满帮实时计算未来发展方
FlinkSQL 在米哈游的平台建设和应用实践
张剑|米哈游大数据实时计算团队负责人
一、FlinkSQL 在米哈游的发展历程
- 以 API 开发为主的 Flink 平台
- 以 SQL 为主一站式开发平台
- 一站式开发平台的功能深化和场景覆盖
二、FlinkSQL 在米哈游的平台建设
- FlinkSQL 在语义表达和细粒度控制能力建设
- FlinkSQL 资源调整和弹性资源能力建设
- FlinkSQL 指标体系建设
- FlinkSQL 近实时数仓建设
三、FlinkSQL 在米哈游的未来展望
- FlinkSQL 在批流一体上稳定推进
- FlinkSQL 在 K8S 上稳定运行建设
- FlinkSQL 在更多使用场景上的探索
- FlinkSQL 基于 Iceberg 的近实时数仓和 TableSotre 的持续探索
Flink 在蔚来自动驾驶 AO 部门的运用
林志浩|蔚来资深软件开发工程师
- 自动驾驶数据介绍
- Flink的应用和实际问题
- 数据采集的迭代和展望
- 谈谈商业数据闭环
集度汽车 Flink on native k8s 的应用与实践
周磊|集度汽车数据部门实时方向负责人 & Apache Flink Contributor
顾云|集度汽车数据开发专家
集度汽车成立于 2021 年 3 月,是一家致力于打造下一代智能汽车机器人的公司。
在集度汽车实时计算的发展过程中,Flink 起到了至关重要的作用。Flink 的低延迟,高吞吐,支撑着整个公司的实时数据流。
目前在集度,Flink 技术栈应用比较广泛,主要包括 FlinkCDC Binlog 收集、Binlog 增量还原、Flink 实时数据同步、FlinkSQL 实时埋点入仓、以及 Flink DataStream api 实现各种业务需求,例如盲订相关实时标签,销售实时线索等。
本次演讲主要分享 FlinkSQL 对于集度汽车多数据(车端埋点,云端埋点,业务数据,日志数据)实时入仓(Hive,HDFS,Doris)的支持,以及从 0 到 1 搭建 Flink 计算平台(on k8s)的过程中遇到的问题及解决方案。
- 集度汽车 Flink on native k8s 发展
1.1 Flink on native k8s 在集度汽车的实践与相关问题
- FlinkSQL 实时入仓应用实践
2.1 FlinkSQL 如何快速支持埋点实时入仓
2.2 如何自定义 FlinkSQL format 以及其原理
- Flink 计算平台(on k8s)建设
3.1 从 0 到 1 搭建 Flink 计算平台
3.2 Flink 任务运行时状态机设计 - Flink 任务运行时状态与 pod 状态的一致性实现
- 未来规划
4.1 Flink 湖仓一体与实时入湖探索
4.2 Flink 计算平台迭代与优化
Flink 在中泰证券的实践与应用
连序全|中泰证券大数据中心实时计算架构师
业务的不断发展催动中泰证券逐步建立起以 Flink 为核心的实时计算平台,利用 Flink 开发平台释放业务潜能。本次分享主要包括以下几部分内容:
- 介绍中泰证券实时计算平台的发展历程。
- 场景驱动;讲述 Flink 在中泰的重要应用场景。
- 架构选型;介绍大数据团队基于 Flink 构建的实时计算架构。
- 后期规划;多业务场景的实时数仓探索;Flink 与 k8s 深度融合。
中原银行 OLAP 架构实时化演进
杜威科|中原银行流计算平台负责人
本次主要介绍中原银行近几年在实时 OLAP 方面通过不断应用新技术来强化实时数据加工能力、提升实时数据使用体验的架构演进历程,借此机会与同行探讨实时数据如何在银行业发挥更大的价值,同时也希望通过本次经验分享可以为其他企业带来一点实时数据使用新思路。
- 银行行业实时化建设背景和挑战
- OLAP 全链路实时化
a)实时抽取,基于 Oracle 的日志的秒级抽取。
b)实时加工,基于 Flink SQL 构建实时数据平台化加工。
c)实时分析,基于 StarRocks 提供 OLAP 能力,实时入库和在线分析,查询时能够对数据进行轻加工。
- OLAP 实时化探索
a)基于 StarRocks 的 OLAP 架构探索。银行业数据分析特点不同于互联网公司,基于维表的实时报表业务是计算的一大难点,使用 View 封装查询逻辑可以解决一部分场景,但代价太大。
b)基于 Flink Table Store 的 OLAP 架构探索。最新的 Flink Table Store 的出现,给银行业基于维表计算的实时报表业务带来了新的可能。
Apache Flink 在翼支付的应用与实践
尹春光|翼支付高级大数据开发工程师
翼支付在金融大数据业务中经过多年的探索和实践,以 Apache Flink 为实时计算引擎构建了实时数据加工平台,赋能公司营销、风控、运营等业务实时决策,驱动业务高质量发展。
议题主要介绍在业务发展过程中,系统基于业务的架构演进过程中实时计算场景实践经验。
中信建投证券基于 Flink 的实时计算平台探索与实践
王若梦|中信建投证券实时数仓项目负责人
宋宇航|中信建投证券流计算技术专家
一、中信建投实时计算平台建设历程。
二、实时计算落地场景
三、流批一体解决方案的探索与实践
四、规划与未来展望
菜鸟供应链实时数仓最佳实践
张庭|阿里巴巴菜鸟网络高级数据研发工程师
供应链&物流领域因其业务过程复杂性,在构建实时数仓时,面对的是数十个系统、几十张表的复杂数处理据场景,传统的数仓分层建模方式早已无法解决供应链&物流场景下几何级的数据复杂度问题。再加上物流过程超长更新周期的特性,动辄几十天的数据状态生命周期,无论是运维还是迭代都有着巨大的挑战。为此我们探索出了一套供应链与物流行业特色的实时数仓解决方案。
纲要:
- 菜鸟供应链业务背景介绍
- 菜鸟供应链实时数仓建设的困境与架构演进
- 多业务线多系统多数据源的复杂度问题。
- 多流 join 优化方法及技巧
- 供应链&物流数据特色的批流一体解决方案
- 实时数仓构建过程中的设计细节与技巧
- 结合 Flink 未来方向的数仓演进方向以及我们期望的未来发展方向。
电商 SaaS 全渠道实时数据中台最佳实践
张成玉|聚水潭大数据开发专家,数据团队-实时研发组负责人,数据中台架构师
应圣楚|聚水潭高级 ETL 工程师,数据团队-实时研发组成员,数据中台-数据门户、直播大屏公共层研发负责人
- 聚水潭实时数仓的建设和发展
- 数据中台的产品体系及架构
- 实时计算的实践&优化
- 对实时计算的未来展望
Flink 在平安证券的实践
张兴|平安证券经纪大数据基础平台负责人
- Flink 开发平台的建设和演变
1.1 FlinkSQL 开发平台的建设
1.2 支持 Flink 版本演进和开发流程标准化
1.3 平台现状
1.4 平台的未来展望
- Flink 在平安证券的业务场景的实践
2.1 基于股票行情的应用
2.2 基于用户行为的应用
2.3 股票开户场景的应用
2.4 等等其他场景
Flink 在新能源场站运维的应用
姚远|中国电力工程顾问集团中南电力设计院有限公司 工程师、注册测绘师
- 新能源场站特点
- 新能源场站面临的问题(光伏、风电随着运行的持续,发电效率下降,运维的自动化程度低等问题)
- 整体技术架构(Flink 做工业数据采集治理,实时计算及分析)
- 完善及展望
生产实践
How To Write Fast Flink SQL
贺小令|阿里云高级技术专家,Apache Flink Committer
通过几个经典案例介绍 Flink SQL 的最佳实践:如何写出简单高效的 Flink SQL,哪些 SQL 是 BAD SQL。帮助听众更好地的认识 Flink SQL
快手 Flink 的稳定性和功能性扩展
刘建刚|快手技术专家
- 稳定性
a. 作业智能迁移,包括大规模集群迁移和单作业自动迁移。
b. 基于硬件故障的自动容错,包括磁盘故障、内存故障、网络故障以及慢节点等问题。
c. 分级保障机制,包括作业编排、资源抢占等各种策略来维护高优作业的稳定性。
d. 作业故障归因和智能分析。
- 功能性
a. 弹性可伸缩,支持 Flink 动态修改资源。
b. Flink state 存储和计算分离,基于远程 SSD 的状态存储和自动容灾。
c. 支持 Remote shuffle service。
- 批处理的定制优化:
a. 混部场景下的自动 failover。
b. 基于 attach 模式的探活机制(client 端和 server 端的存活一致性)。
c. 易用性,包括远程文件加载和 udf 支持、Web 智能路由和日志查看。
- 线上可用性经验
a. Flink 上线流程,包含各种测试(回归测试、性能测试、黑盒测试、破坏性测试)、发版流程、灰度流程、自动升级等。
b. 重要活动的开发和保障机制。
c. 双集群、跨 AZ 容灾保障。
- 未来规划
a. 更丰富的动态调整功能,包含部署、扩缩容、算子调整等。
b. 流批一体,流与批的无限融合与智能切换。
c. 完善生态,覆盖更多的计算场景。
d. 持续的性能优化,包含物化视图、join 等。
基于云原生的集群自愈系统 Flink Cluster Inspector
许雷力|阿里云计算平台 实时计算&托管生态 SRE 团队 阿里云技术专家
张韦杰|阿里云开发工程师
在互联网降本的大环境背景下,阿里云持有的超大规模 Flink 集群如何提升水位降本成为一大挑战,而集群水位提升又天然带来稳定性和运维效率新挑战,阿里云 Flink SRE 该如何系统化、体系化地解决这系列难题?
本议题会介绍通过自研的云原生集群自运维系统 Flink Cluster Inspector,从集群通用异常治理提升稳定性,安全水位抬升降低成本,容量自动化维持兼顾效率,系统性地来解决日常及双 11 大促的稳定&成本&效率难题。
美团 Flink 资源调度优化实践
冯斐|美团数据平台计算引擎工程师
为更好地在生产环境支持 Flink 任务的稳定运行,我们针对任务部署与运行时的资源调度,进行了针对性的优化。本次分享将按以下几方面展开介绍:
- 美团 Flink 作业在资源方面的问题与挑战
- 资源冗余机制:资源就绪效率的提升
- 黑名单机制:异常资源(故障节点与慢节点)的感知与规避
- 后续规划
抖音实时数仓保障及治理实践
李建国|字节跳动 实时数据研发工程师
茅旭辉|字节跳动 实时数据研发工程师
抖音实时数仓建设覆盖短视频、直播、电商、本地生活等核心业务场景,依赖的基础组件多、研发环境复杂,数据量大、链路复杂,对时效性、质量和稳定性要求非常高,在质量和稳定性的保障和治理面临非常大的挑战。
本次分享将从对抖音实时数仓质量和稳定性的保障和治理两个视角,介绍在实时数仓研发和生产环节的质量和稳定性保障工作,以及在成本、质量、稳定性、规范性方面建设和治理的实践。
小米基于 Flink 的实时计算资源治理实践
张蛟|小米高级软件工程师,Apache Flink Contributor
整个内容主要分成四个部分:发展现状、Flink 框架层计算资源治理实践、实时计算平台层计算资源治理实践、未来规划与展望
- 发展现状:
(1) 小米基于 Flink 的实时计算平台的整体架构
(2) 当前 Flink 集群的规模、作业数、处理消息量级
(3) 当前 Flink 集群存在资源浪费、利用率低的现状
(4) Flink 实时作业尤其是实时集成作业存在规模大,资源消耗多,资源利用率不足等问题
(5) 资源治理的原则:降本不能降质、处理性能稳定性等不能受明显影响,以数据驱动、用价值量化、深入业务、采用技术培训和业务回访的方式形成渠道闭环
- Flink 框架层计算资源治理实践(弹性调度)
(1) 弹性调度的整体架构
(2) 指标收集架构
(3) 基于 drools + 规则存储的动态规则引擎
(4) 基于 YARN Container 原地重启的 Container 资源动态调整
(5) 基于 Adaptive Scheduler 的并行度调整、持久化及恢复:伸缩条件判断、数据是否倾斜、前后 DAG 图是否变化、资源是否足够,以及扩容比例等,失败时自动会滚
(6) 弹性策略:定时调度、周期调度、主动触发;自动伸缩、手动伸缩
(7) 落地时遇到的问题与解决:主动弹性功能、弹性带来的稳定性问题优化、managed memory 配置优化、CPU core 调整与 numberOfTaskSlots 等
(8) 其它相关优化:算子最大并行度和作业最大并行度校验与展示
(9) 目前取得的成效
- 实时计算平台层计算资源治理实践
(1) 智能内存建议与实现
(2) 平台配置并行度优先与资源需求提交前校验
(3) 统一实时队列避免资源浪费
(4) 弹性审计日志及效果展示
(5) 标杆业务及效果展示 总体思路:内存建议-->并发限制-->屏蔽队列-->弹性调度
- 未来规划与展望
(1) 更智能更稳定的弹性方案和规则,业务自定义弹性规则
(2) 场景更丰富、效果更显著的弹性功能
(3) 更多的业务方接入,最终默认全量开启
(4) Container 级别弹性的持久化与恢复
Hive SQL 迁移到 Flink SQL 在快手的实践
张芒|快手大数据架构工程师
刘大龙|阿里云工程师
快手各大业务对流批一体有很强的诉求,Flink 流批一体在功能和性能方面已经达到生产可用。快手 Flink 团队和社区深度合作,共同探索流批一体在生产应用中的巨大价值;
- 快手选择 Flink 作为流批一体引擎的原因和思考;
- 快手 Flink 接入离线生产体系的实践和优化;
- 针对生产使用程中遇到的问题,介绍社区在 Flink SQL 方面做的改进优化,包括 SQL API、优化器、QE、Format 等多个方面;
- 结合生产使用程中遇到的一些问题和后续迁移计划,介绍社区的未来规划。
字节跳动 Flink 大规模云原生化实践
刘畅|字节跳动基础架构工程师
字节跳动拥有业界领先的 Flink 流式计算任务规模。随着云原生时代的到来,我们开始探索将线上的 Flink 任务从 Hadoop 迁移到 Kubernetes,使得作业云原生化运行。
本次分享主要内容:
- 介绍字节跳动 Flink 任务的规模及现状;
- 介绍字节跳动自研统一的大数据 Operator - Arcee,如何托管 Flink 作业,并且打平之前 on Yarn 的功能;
- 介绍字节跳动统一的大数据平台 - Megatron,如何完善 Flink on K8s 的周边生态,提升用户体验;
- 介绍从多租户、资源调度、底层隔离等方面对 Flink 引擎和 K8s 的定制优化;
- 介绍通过 Arcee 将线上大量作业平滑迁移至 K8s 的实践经验。
阿里云实时计算 Flink 自动调优实践
钟旭阳|阿里云开发工程师,Apache Flink Contributor
Flink 流作业的资源调优一直是业界难题,该 Topic 主要介绍阿里云上 Flink 资源调优的一些实践。
以上为 Flink Forward Asia 2022 行业案例专场 & 生产实践专场内容节选,了解更多大会详情可点击下方链接:
移动端建议观看 ApacheFlink 视频号预约观看:
活动推荐
阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc