【通用行业开发部】记一次rocketMq的踩坑经历

简介: 遇到的极小众问题:阿里云RocketMq的死分区与假堆积

※技术组件:阿里云RocketMq
※业务场景:上游系统A将商家变更后数据,通过rocketMq消息通知我项目进行同步更改
※时间背景:项目上线后连续平稳运行一段时间的某天晚上
※异常发现:收到钉钉机器人的告警信息:topicxxx的消息堆积量已达xxx条。登录阿里云mq的控制台,显示topic状态异常,消息堆积状态。
※异常排查:
1、首先怀疑服务问题,紧急检查ECS服务器状态-->全部正常
2、检查mq消费者微服务所在pod状态-->全部正常
3、检查生产环境服务运行日志-->正常
4、搜索告警topic的近期消费日志-->正常
排查到这里其实就已经有点头大了,业务检查没有任何异常,mq的控制台又不能展示具体堆积的消息详情。
抓耳挠腮好一会儿之后,既然不能通过服务发现问题,就索性走一遍流程,看能不能复现问题。于是趁着夜深人静打开pod节点实时日志,然后通过mq的控制台手动发送了一条测试消息,结果!竟然!日志打印了! mq消费没问题!emm,这就TM的离谱,看着控制台上红色的消息堆积状态,我陷入了深深的沉思...
确认服务消费没问题就好办了,第二天直接提了个阿里云工单咨询,结果工单小哥也没遇见过这种问题,历经许久并且用掉了一次技术专家答疑,才最终得到了
原因:死分区与假堆积,通俗点说就是某个节点长时间没有消息生产和消费,rocketMq会不能准确的监测到这个节点的状态,进而给出虚假的消息堆积告警。
※问题修复:
1、根据业务场景和生产日志,梳理出可能存在长时间没有消息消费的节点
2、针对这些节点增加定时发送消息(心跳)的逻辑。
※总结:
1、还是有必要了解选用技术一些可能隐藏的坑,不至于遇到问题时候手忙脚乱
2、技术选型和技术方案还是要根据业务和功能来确定,像本案例其实是不适用mq的(应该设计之初是有mq的通道,不愿再增加一种新的交互方式)

相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
JavaScript Java 数据库连接
属于Java的协程终于来了!
属于Java的协程终于来了!
属于Java的协程终于来了!
|
canal 关系型数据库 MySQL
canal 组件介绍(1)
前言     首先,这个文章系列主要是讲canal的,毫无疑问,对吧。那么在开始阅读这个系列之前,我希望真正有兴趣的同学一定要先去阅读canal的官方文档,没有什么比这个更权威了。
2569 0
|
3月前
|
SQL Java 数据库连接
Spring Data JPA 技术深度解析与应用指南
本文档全面介绍 Spring Data JPA 的核心概念、技术原理和实际应用。作为 Spring 生态系统中数据访问层的关键组件,Spring Data JPA 极大简化了 Java 持久层开发。本文将深入探讨其架构设计、核心接口、查询派生机制、事务管理以及与 Spring 框架的集成方式,并通过实际示例展示如何高效地使用这一技术。本文档约1500字,适合有一定 Spring 和 JPA 基础的开发者阅读。
392 0
|
消息中间件 容灾 物联网
【RocketMQ系列十四】RocketMQ中消息堆积如何处理
【RocketMQ系列十四】RocketMQ中消息堆积如何处理
2794 3
|
存储 监控 Cloud Native
ClickHouse物化视图里常见的7个坑,你踩过几个?
在 OLAP 的业务场景中,不仅要把数据存起来,还需要把数据处理好。在 ClickHouse 中,为了提高数据处理性能,使用 Materialized View 是有效的方法之一。本文主要探讨 Materialized View(下文称 MV) 的工作原理与最佳实践,并介绍了使用过程中容易踩坑的一些问题和解决方案。
1622 5
|
消息中间件 缓存 Java
RocketMQ消息发送常见错误与解决方案
RocketMQ消息发送常见错误与解决方案
RocketMQ消息发送常见错误与解决方案
|
SQL Java 数据库连接
对 MyBatis Plus SaveBatch 调优提升25倍性能!!!
最近在压测一批接口,发现接口处理速度慢的有点超出预期,感觉很奇怪,后面定位发现是数据库批量保存这块很慢。这个项目用的是,批量保存直接用的是提供的 saveBatch。于是开始排查之路。所以如果有使用 jdbc 的 Batch 性能方面的需求,要将rewriteBatchedStatements 设置为 true,这样能提高很多性能。然后如果喜欢手动拼接 sql 要注意一次拼接的数量,分批处理。
1058 1
|
SQL 自然语言处理 监控
Elasticsearch 基础检索(全文检索/多语言检索/地理位置查询)
Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎,设计用于云计算中能够达到实时搜索,稳定,可靠,快速,并支持RESTFUL风格的url访问。全文检索、多语言检索以及基于地理位置信息检索在Elasticsearch上应用广泛,本场实验将分别介绍如何使用Elasticsearch8.5版本进行全文检索、多语言检索和地理位置查询三个Elasticsearch基础检索子场景的实现。
19462 7
Elasticsearch 基础检索(全文检索/多语言检索/地理位置查询)
终于明白:有了线程,为什么还要有协程?
其实,在早期计算机并没有包含操作系统,这个时候,这个计算机只跑一个程序,这个程序独享计算机的所有资源,这个时候不存在什么并发问题,但是对计算机的资源来说,确实是一种浪费。早期编程都是基于单进程来进行,随着计算机技术的发展,于是,操作系统出现了,操作系统改变了这种现状,让计算机可以运行多个程序,并且不同的程序占用独立的计算机资源,如内存,CPU等。
|
消息中间件 缓存 监控
Rocketmq并发和顺序消费的失败重试机制
Rocketmq并发和顺序消费的失败重试机制
34825 2