开发者社区> 问答> 正文

Flink checkpoint 速度很慢如何进行问题排查

Dear all,

我有一个两个Flink Job A和B

A job任务是消费kafka topic01数据,经过一系列逻辑加工,最终将数据sink到topic02

其中加工大致过程是:消费到topic01消息后,根据数据相关字段查询redis、查询hbase,然后组装业务数据(过程比较复杂),然后将业务数据写到另一个topic02,30s做一次checkpoint,state大小只有几十kb,但做一次checkpoint平均需要两分钟,导致topic01消息产生堆积,实时性降低。

B job任务简单,消费上一步的的业务数据topic02,开一个半个小时的窗口将数据进行聚合(keyby、max)之后写到orc file,state大小几百兆,但耗时是秒级别。

我比较疑惑的是为什么A job的state那么小,但checkpoint却很耗时,不知道从哪个角度去优化该问题。

请各位指教*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-02 14:22:48 1519 0
1 条回答
写回答
取消 提交回答
  • 你理解的可能有点偏差,应该是因为任务出现了反压或者数据倾斜的问题导致了cp时间长,01消息堆积说明已经反压到source端了,需要先定位反压的位置,看是具体什么原因导致的,然后再根据情况解决.*来自志愿者整理的FLINK邮件归档

    2021-12-02 14:35:48
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载