OOM排查之路:一次曲折的线上故障复盘

简介: dqwdqwdqwdqwd

我们的服务整合了Paimon数据湖与RocksDB,通过SDK负责数据的查询与写入。近期,该系统在线上环境连续发生了三次内存溢出(OOM)故障。排查过程颇为曲折,笔者与团队成员尝试了多种方法,走了不少弯路,最终成功定位到问题根源并将其妥善解决。

本文旨在将这段“曲折”的排查经历抽丝剥茧,分享我们是如何一步步逼近真相并最终解决问题的,希望能为使用相似技术栈的朋友带来一些启发。

一、问题的发现&解决

1.1 第一次OOM

现象

某天早上,收到了服务的线上告警,发现大批量RPC请求都失败了,登录相关的服务平台才发现,所有对外的RPC服务,全部都下线了。

根据故障排查的经验,此时应该先对服务进行止血,并且保留现场用于排查问题,于是在重启一台机器后,观察另一台机器的监控指标,在监控指标中,我们注意到了一个异常现象。

Java线程数量如上图所示,Runnable的线程数量在某个时间点突增(上图只截取了一部分时间的监控,实际上线程数量会在一些固定时间点突增)。

排查

这些固定时间,自然成为了我们首先怀疑的方向,这些固定时间,均是在整点附近,而我们的服务是在整点,通过定时任务调度SDK向Paimon表中写入数据。

我们询问了提供相关SDK的团队同学,一起排查后发现,我们所建的Paimon表是依赖公司内部其他中间建表的,在没有指定bucket数量时,会默认100个bucket,而SDK会在每张表的每一个bucket在写的时候都会开一个线程,最终就会有 表数量 x 100 个线程在跑,这个数量也符合我们观察到的Java线程数。

解决

后续和相关同学沟通后,决定减少bucket数量,根据查阅相关资料,Paimon表的bucket数量应该参考以下设置:

  • 数据量较小的场景(OLTP场景)
  • 设置较小的bucket数量,一般在4-16之间,较少的bucket数量也可以对查询效率有一些提升。
  • 海量数据(高并发流式写入场景)
  • 设置64、128、256个bucket

总体来说可以参考以下公式,设置为2的次方个bucket

bucket数量 ≈ (预计的最大写入并行度) * N (其中 N 通常取 1 到 4)

在调整bucket数量后,修复上线,线程数降到了理想范围,解决了线程数量突增的问题。

1.2 第二次OOM

现象

上次OOM问题解决后,我们加强了服务的相关告警。然而时隔20多天后,线上服务又告警了,现象依旧是所有对外的RPC服务全部下线了。

登录监控平台查看相关JVM信息,Java线程数一切正常,但是内存占用率已经到了95%+。

登录机器,使用如下命令,发现Java进程被Kill了。

dmesg | grep -i "killed process"

将监控平台对内存利用率的查询时间周期拉长后发现,自从上次重启之后,内存利用率一直在缓慢上升。

因为内存利用率是缓慢上升,而非突增,只能随着时间的推移,不断地排查内存泄漏的原因,于是我们开启了一段为期半个月的内存泄漏排查旅程。

排查

堆内排查

首先,我们对JVM内存相关的监控指标进行了排查,观察是否由堆内存泄漏导致的OOM。

监控突变如上所示,从图中可以看到,“已使用堆内存”呈现周期性的波动,基本可以确认是正常的GC导致的波动,并且机器的内存是8G,堆内存最大也不过4G。而老年代的内存占用量也在0左右,并未出现波动。

基于以上分析,我们可以明确排除因Java对象持续堆积而导致的堆内存泄漏。故障的根源必定在于堆外内存。

堆外排查

线程数量分析

对Java线程数量进行分析,可以看到在上次调整bucket数量之后,线程数量十分稳定,可以排除Java线程数量增长导致的OOM。

DirectMemory和JNIMemory

使用集团内部的MAT文件,分析了Dump文件,发现堆外内存中都是java.nio.DirectByteBuffer。

这个类是NIO的类,阅读相关文章后,找到相关资料,其中提到集团内部的RPC框架使用Netty,可能会申请堆外内存,且无法监控到,慢慢导致能存利用率上升。

使用Arthas 的 memory 命令分析了系统的内存分布,结果如下:

可以看到,direct占了312M,而其他应用的内存分布如下:

direct只有8M,这两者相差较多。

继续分析Netty占用,结果如下:

将所有的netty占用加起来,确实占用了300M。但300M也远远不会让我们的应用OOM,显然这不是系统OOM根因。

使用NMT工具排查,先记录了baseline,在一天过后执行了一次diff。

可以看到,committed一天不过增长了57M,这也和内存利用率的上涨对应不上。

async-profiler,抓取了一段时间系统运行堆栈的内存分布火焰图,来观察哪些类的上涨比较多,当内存的RES上涨100m后,产出了火焰图,发现火焰图中记录的总共只有4M,这和RES上涨差的也很多。

最后用pmap命令对比了内存上涨前后的diff,也并未发现异常问题。

解决

尽管我们已将问题初步定位于堆外内存,但由于堆外内存泄漏的成因复杂且监控手段有限,此次排查并未直接定位到根本原因。

最后,我们与JVM专家团队紧密协作,制定了一系列手段来解决内存利用率上涨的问题。

1. 适度调低JVM堆内存上限(-Xmx),将更多物理内存预留给堆外空间使用。

2. 加上-XX:+AlwaysPreTouch参数。

默认情况下,JVM向操作系统申请的堆内存是“懒加载”的,只有在实际使用时才会触发物理内存的分配。这会导致监控到的容器内存曲线随时间推移而“自然”增长,对我们判断是否存在“额外”的内存泄漏造成视觉干扰。启用AlwaysPreTouch能让JVM在启动时就一次性占用所有分配的堆内存。

3. 增加机器内存。

4. 升级RPC框架的 netty共享sar包,减少netty占用。

1.3 第三次OOM


相关文章
|
4月前
|
监控 Java 测试技术
OOM排查之路:一次曲折的线上故障复盘
本文记录了一次Paimon数据湖与RocksDB集成服务线上频繁OOM的排查历程。通过分析线程暴增、堆外内存泄漏,最终定位到SDK中RocksDB的JNI内存未释放问题,并借助Flink重构写入链路彻底解决。分享了MAT、NMT、async-profiler等工具的实战经验与排查思路,为类似技术栈提供借鉴。
OOM排查之路:一次曲折的线上故障复盘
|
NoSQL 安全 Java
SpringBoot系列(2)整合MongoDB实现增删改查(完整案例)
自己本科时候一直使用的是Mysql,目前的课题组使用的是MongoDB,因此就花了一部分时间整理了一下,实现springboot与MongoDB的整合,并且实现基本的增删改查操作,从头到尾给出一个完整的案例。
1543 0
SpringBoot系列(2)整合MongoDB实现增删改查(完整案例)
|
4月前
|
监控 Java 测试技术
OOM排查之路:一次曲折的线上故障复盘
本文记录了一次Paimon数据湖与RocksDB集成服务频繁OOM的排查历程。通过分析线程激增、堆外内存泄漏,最终定位到RocksDB JNI内存未释放问题,并借助Flink重构写入链路彻底解决。分享了MAT、NMT、async-profiler等工具的实战经验与系统性排查思路,为类似场景提供借鉴。(239字)
 OOM排查之路:一次曲折的线上故障复盘
|
4月前
|
开发框架 人工智能 机器人
LangChain vs LangGraph:大模型应用开发的双子星框架
LangChain是大模型应用的“乐高积木”,提供标准化组件,助力快速构建简单应用;LangGraph则是“交通控制系统”,通过图结构支持复杂、有状态的工作流。两者互补,构成从原型到生产的一体化解决方案。
|
4月前
|
监控 Java 测试技术
OOM排查之路:一次曲折的线上故障复盘
本文记录了一次线上服务因Paimon数据湖与RocksDB集成引发的三次内存溢出(OOM)故障排查全过程。通过MAT、NMT、async-profiler等工具,结合监控分析与专家协作,最终定位到RocksDB通过JNI申请堆外内存未释放的根源问题,并推动架构优化:由应用直写改为Flink统一入湖。分享排查思路与工具使用,为同类技术栈提供借鉴。
|
6月前
|
Arthas 数据可视化 Java
深入理解JVM《火焰图:性能分析的终极可视化利器》
火焰图是Brendan Gregg发明的性能分析利器,将复杂调用栈可视化为“火焰”状图形,直观展示函数耗时与调用关系。通过宽度识别热点函数,结合async-profiler或Arthas工具生成,助力快速定位CPU、内存等性能瓶颈,提升优化效率。
|
消息中间件 Java 应用服务中间件
我是如何通过火焰图分析让应用CPU占用下降近20%的
分享作者在使用Arthas火焰图工具进行Java应用性能分析和优化的经验。
|
11月前
|
Kubernetes Cloud Native 调度
《分布式任务调度框架深度对比:Quartz/XXL-JOB/Elastic-Job/PowerJob选型指南》​
根据IDC预测,到2025年全球将有75%的企业任务调度系统需要重构以适应云原生架构。技术雷达监测:定期关注CNCF技术趋势报告渐进式改造:从非核心业务开始验证新框架人才储备:重点培养具备K8s Operator开发能力的调度专家评估现有系统的云原生适配度在测试环境部署PowerJob 4.3.3参与CNCF调度技术社区讨论制定6个月框架迁移路线图(注:本文数据来自各框架官方路线图、CNCF年度报告及笔者压力测试结果,转载请保留出处)
2370 0
|
缓存 JavaScript Java
常见java OOM异常分析排查思路分析
Java虚拟机(JVM)遇到 OutOfMemoryError(OOM)表示内存资源不足。常见OOM情况包括:1) **Java堆空间不足**:内存被大量对象占用且未及时回收,或内存泄漏;解决方法包括调整JVM堆内存大小、优化代码及修复内存泄漏。2) **线程栈空间不足**:单线程栈帧过大或频繁创建线程;可通过优化代码或调整-Xss参数解决。3) **方法区溢出**:运行时生成大量类导致方法区满载;需调整元空间大小或优化类加载机制。4) **本机内存不足**:JNI调用或内存泄漏引起;需检查并优化本机代码。5) **GC造成的内存不足**:频繁GC但效果不佳;需优化JVM参数、代码及垃圾回收器
1128 7
常见java OOM异常分析排查思路分析
seata是怎么进行分布式事务控制的
seata是怎么进行分布式事务控制的