jvm间歇性崩溃分析

简介:

1 问题描述     

      某服务有两台机器,每隔几天会报警load高,一开始看监控发现gc时间抖动很大,以为是发生了fullgc引起卡顿而未加注意,之后登入线上机器查看日志发现是jvm崩溃导致了服务重启从而引发gc时间抖动。以某天为例,该服务分别在上午7点和上午10点发生jvm崩溃,如果同时发生崩溃将导致线上停服,后果不堪设想。

2 问题分析

     崩溃日志显示jvm崩溃发生在在标记清除扫根路径时。

     搜索此bug,发现是jvm的一个已知bug,https://bugs.openjdk.java.net/browse/JDK-8020236,这个bug在1.6和1.7中均有,只是因为重现困难而一直未被修复。

                Par_MarkFromRootsClosure::scan_oops_in_oop(HeapWord*)

 

      有人遇到和我们一样的问题(http://hllvm.group.iteye.com/group/topic/43404),他通过压测发现当“ParallelCMSThreads > ParallelGCThreads”会引起此崩溃,而当"ParallelCMSThreads <= ParallelGCThreads"时问题不再复现。而ParallelCMSThreads > ParallelGCThreads”这个问题也在jvm bug列表中(https://bugs.openjdk.java.net/browse/JDK-6668573),此bug下有人给出的解决思路是将ParallelCMSThreads 设置为 <=ParallelGCThreads。

3 解决方法

        查看我们junglepoi-service服务的jvm参数配置,发现ParallelCMSThreads被设置成4,而ParallelGCThreads却未被设置。默认情况下ParallelGCThreads = (ncpus <= 8) ? ncpus : 3 + ((ncpus * 5) / 8),其中ncpus是机器的核数,由于junglepoi-service服务所在的机器为2核4G配置,因此默认情况下ParallelGCThreads=2,此时ParallelCMSThreads > ParallelGCThreads。       

       解决方法是:1)将ParallelCMSThreads设置为2或1;2)或者不设置ParallelCMSThreads,默认情况下ParallelCMSThreads = (ParallelGCThreads + 3) / 4,如果不设置默认ParallelCMSThreads=(2+3)/4=1。

       我们将ParallelCMSThreads设置为2,上线两天未复现jvm崩溃异常,后续将持续观察。

4 启示

       不能简单拷贝其它项目的jvm参数配置,需要结合项目特点、机器环境等各方面信息来综合配置。

目录
相关文章
|
9月前
|
机器学习/深度学习 存储 人工智能
《长文本处理新曙光:深入剖析多头隐式注意力机制显存优化奥秘》
Transformer架构在自然语言处理等领域带来革命性变革,但其多头注意力机制(MHA)在处理长文本时显存占用呈几何级数增长,限制了应用。为此,多头隐式注意力机制(MLA)应运而生。MLA通过低秩联合压缩键值矩阵,将高维矩阵映射到低维潜在空间,显著减少显存占用,同时保持语义完整性。这使得长文本处理任务如文档翻译、知识库问答等在资源有限的硬件环境下也能高效运行。MLA结合分布式推理技术,进一步提升系统性能,未来有望在医疗、金融等领域发挥重要作用。
268 0
|
传感器 算法 物联网
智能停车解决方案之停车场室内导航系统(二):核心技术与系统架构构建
随着城市化进程的加速,停车难问题日益凸显。本文深入剖析智能停车系统的关键技术,包括停车场电子地图编辑绘制、物联网与传感器技术、大数据与云计算的应用、定位技术及车辆导航路径规划,为读者提供全面的技术解决方案。系统架构分为应用层、业务层、数据层和运行环境,涵盖停车场室内导航、车位占用检测、动态更新、精准导航和路径规划等方面。
1080 4
|
存储 缓存 安全
Flutter:类功能索引(全)
本文以表描述形式收录了Flutter中提供的各个类,旨在方便地进行查询相关组件。
384 2
|
机器学习/深度学习 存储 算法
NumPy 与 SciPy:Python 科学计算库的比较
【8月更文挑战第30天】
715 5
|
缓存 关系型数据库 数据库
Tornado 也太厉害了吧!高性能 Web 开发的神器,快来看看这逆天的强大引擎!
【8月更文挑战第31天】在互联网时代,Web应用的性能至关重要。Tornado作为高性能Python Web框架,凭借其异步非阻塞I/O模型,能够高效处理大量并发连接,降低资源消耗并提升响应速度。其简洁易用的特性及丰富的功能(如路由管理、模板引擎等),使开发者能快速构建强大的Web应用。通过合理运用异步编程、优化数据库操作、使用缓存以及优化模板渲染等最佳实践,可充分发挥Tornado的优势,打造高性能Web应用。
395 0
|
Go 开发者
为什么在 Golang 中使用 Goto 语句?
【8月更文挑战第31天】
423 0
Element UI 上传文件 el-upload —— 手动上传文件,限制上传文件数量,文件类型校验等
Element UI 上传文件 el-upload —— 手动上传文件,限制上传文件数量,文件类型校验等
4194 0
|
SQL 安全 Java
Spring Boot中的跨站点脚本攻击(XSS)与SQL注入防护
【6月更文挑战第15天】在现代Web应用程序开发中,安全性是一个至关重要的课题。跨站点脚本攻击(XSS)和SQL注入是最常见的两种攻击类型,它们可以严重威胁到应用程序的安全。
1024 0
|
Go
panic: concurrent write to websocket connection【golang、websocket】
panic: concurrent write to websocket connection【golang、websocket】
418 0