一场FullGC故障排查-阿里云开发者社区

一场FullGC故障排查

2025-12-30 10

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文记录了一次JDOS容器CPU告警的排查过程，通过分析发现实际为JVM Full GC引发CPU占用升高。结合泰山与SGM监控，定位到堆内存中大对象导致老年代频繁占满。经JPofiler分析，确认问题源于将Excel数据以List<Map<String, String>>形式加载至内存，造成严重内存膨胀。最终提出优化方案：避免大对象驻留JVM或改用高效存储结构，降低GC压力。

一、问题发现与排查
1.1 找到问题原因
问题起因是我们收到了jdos的容器CPU告警，CPU使用率已经达到104%

观察该机器日志发现，此时有很多线程在执行跑批任务。正常来说，跑批任务是低CPU高内存型，所以此时考虑是FullGC引起的大量CPU占用（之前有类似情况，告知用户后重启应用后解决问题）。
通过泰山查看该机器内存使用情况：

可以看到CPU确实使用率偏高，但是内存使用率并不高，只有62%，属于正常范围内。
到这里其实就有点迷惑了，按道理来说此时内存应该已经打满才对。
后面根据其他指标，例如流量的突然进入也怀疑过是jsf接口被突然大量调用导致的cpu占满，所以内存使用率不高，不过后面都慢慢排除了。其实在这里就有点一筹莫展了，现象与猜测不符，只有CPU增长而没有内存增长，那么什么原因会导致单方面CPU增长？然后又朝这个方向排查了半天也都被否定了。
后面突然意识到，会不会是监控有“问题”？
换句话说应该是我们看到的监控有问题，这里的监控是机器的监控，而不是JVM的监控！
JVM的使用的CPU是在机器上能体现出来的，而JVM的堆内存高额使用之后在机器上体现的并不是很明显。
遂去sgm查看对应节点的jvm相关情况：

可以看到我们的堆内存老年代确实有过被打满然后又清理后的情况，查看此时的CPU使用情况也可以与GC时间对应上。
那么此时可以确定，是Full GC引起的问题。
1.2 找到FULL GC的原因
我们首先dump出了gc前后的堆内存快照，
然后使用JPofiler进行内存分析。（JProfiler是一款堆内存分析工具，可以直接连接线上jvm实时查看相关信息，也可以分析dump出来的堆内存快照，对某一时刻的堆内存情况进行分析）
首先将我们dump出来的文件解压，修改后缀名.bin，然后打开即可。（我们使用行云上自带的dump小工具，也可以自己去机器上通过命令手工dump文件）

首先选择Biggest Objects，查看当时堆内存中最大的几个对象。
从图中可以看出，四个List对象就占据了近900MB的内存，而我们刚刚看到堆内存最大也只有1.3GB，因此再加上其他的对象，很容易就会把老年代占满引发full gc的问题。

选择其中一个最大的对象作为我们要查看的对象
这个时候我们已经可以定位到对应的大内存对象对应的位置：

其实至此我们已经能够大概定位出问题所在，如果还是不确定的话，可以查看具体的对象信息，方法如下：

可以看到我们的大List对象，其实内部是很多个Map对象，而每个Map对象中又有很多键值对。
在这里也可以看到Map中的相关属性信息。
也可以在以下界面直接看到相关信息：

然后一路点下去就可以看到对应的属性。
至此，我们理论上已经找到了大对象在代码中的位置。
二、问题解决
2.1 找到大对象在代码中的位置与问题的根本原因
首先我们根据上述过程找到对应位置与逻辑
我们的项目中大概逻辑是这样的：

首先会解析用户上传的Excel样本，并将其加载到内存中作为一个List变量，即我们上述看到的变量。一个20w的样本，此时字段数量有a个，大概占用空间100mb左右。
然后遍历循环用户样本，根据用户样本中的数据，再增加一些额外的请求数据，根据此数据请求相关结果。此时字段数量有a+n个，占用空间已经在200mb左右。
循环完成后将此200mb的数据存入缓存。
开始生成excel，将200mb数据从缓存中取出，并根据之前记录的a个字段，取出初始的样本字段填充至excel。
用流程图表示为：

结合一些具体排查问题的图片：

其中一个现象是每次gc后的最小内存正在逐步变大，对应上述步骤中第二步，内存正在逐步膨胀。
结论：
将用户上传的excel样本加载到内存中，并将其作为一个List>的结构存储起来，首先一个20mb的excel文件以此方式存储会膨胀占用120mb左右堆内存，此步骤会大量占用堆内存，并且因为任务逻辑原因，该大对象内存会在jvm中存在长达4-12小时之久，导致一但任务过多，jvm堆内存很容易被打满。
这里列举了为什么使用HashMap会导致内存膨胀，其主要原因是存储空间效率比较低：
一个Long对象占内存计算：在HashMap结构中，只有Key和Value所存放的两个长整型数据是有效数据，共16字节（2×8字节）。这两个长整型数据包装成java.lang.Long对象之后，就分别具有8字节的MarkWord、8字节的Klass指针，再加8字节存储数据的long值（一个包装对象占24字节）。
然后这2个Long对象组成Map.Entry之后，又多了16字节的对象头（8字节MarkWord+8字节Klass指针=16字节），然后一个8字节的next字段和4字节的int型的hash字段（8字节next指针+4字节hash字段+4字节填充=16字节），为了对齐，还必须添加4字节的空白填充，最后还有HashMap中对这个Entry的8字节的引用，这样增加两个长整型数字，实际耗费的内存为(Long(24byte)×2)+Entry(32byte)+HashMapRef(8byte)=88byte，空间效率为有效数据除以全部内存空间，即16字节/88字节=18%。
——《深入理解Java虚拟机》5.2.6
以下是刚上传的excel中dump出的堆内存对象，其占用的内存达到了128mb，而上传的excel实际只有17.11mb。

空间效率17.1mb/128mb≈13.4%
2.2 如何解决此问题
暂且不讨论上述流程是否合理，解决办法一般可以分为两类，一类是治本，即不把该对象放入jvm内存中，转而存入缓存中，不在内存中则大对象问题自然迎刃而解。另一类是治标，即缩小该大内存对象，在日常使用场景下使其一般不会触发频繁的full gc问题。

一场FullGC故障排查

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

一场FullGC故障排查

热门文章

最新文章

相关电子书