解读 Java 云原生实践中的内存问题

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
性能测试 PTS,5000VUM额度
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: Java 凭借着自身活跃的开源社区和完善的生态优势,在过去的二十几年一直是最受欢迎的编程语言之一。步入云原生时代,蓬勃发展的云原生技术释放云计算红利,推动业务进行云原生化改造,加速企业数字化转型。

Java 凭借着自身活跃的开源社区和完善的生态优势,在过去的二十几年一直是最受欢迎的编程语言之一。步入云原生时代,蓬勃发展的云原生技术释放云计算红利,推动业务进行云原生化改造,加速企业数字化转型。


然而 Java 的云原生转型之路面临着巨大的挑战,Java 的运行机制和云原生特性存在着诸多矛盾。企业借助云原生技术进行深层次成本优化,资源成本管理被上升到前所未有的高度。公有云上资源按量收费,用户对资源用量十分敏感。在内存使用方面,基于 Java 虚拟机的执行机制使得任何 Java 程序都会有固定的基础内存开销,相比 C++/Golang 等原生语言,Java 应用占用的内存巨大,被称为“内存吞噬者”,因此 Java 应用上云更加昂贵。并且应用集成到云上之后系统复杂度增加,普通用户对云上 Java 应用内存没有清晰的认识,不知道如何为应用合理配置内存,出现 OOM 问题时也很难排障,遇到了许多问题。


为什么堆内存未超过 Xmx 却发生了 OOM?怎么理解操作系统和JVM的内存关系?为什么程序占用的内存比 Xmx 大不少,内存都用在哪儿了?为什么线上容器内的程序内存需求更大?本文将 EDAS 用户在 Java 应用云原生化演进实践中遇到的这些问题进行了抽丝剥茧的分析,并给出云原生 Java 应用内存的配置建议。


背景知识


K8s 应用的资源配置


云原生架构以 K8s 为基石,应用在 K8s 上部署,以容器组的形态运行。K8s 的资源模型有两个定义,资源请求(request)和资源限制(limit),K8s 保障容器拥有 request数量的资源,但不允许使用超过limit数量的资源。以如下的内存配置为例,容器至少能获得 1024Mi 的内存资源,但不允许超过 4096Mi,一旦内存使用超限,该容器将发生OOM,而后被 K8s 控制器重启。

spec:
  containers:
  - name: edas
    image: alibaba/edas
    resources:
      requests:
        memory: "1024Mi"
      limits:
        memory: "4096Mi"
    command: ["java", "-jar", "edas.jar"]


容器 OOM


对于容器的 OOM 机制,首先需要来复习一下容器的概念。当我们谈到容器的时候,会说这是一种沙盒技术,容器作为一个沙盒,内部是相对独立的,并且是有边界有大小的。容器内独立的运行环境通过 Linux的Namespace 机制实现,对容器内 PID、Mount、UTS、IPD、Network 等 Namespace 进行了障眼法处理,使得容器内看不到宿主机 Namespace 也看不到其他容器的 Namespace;而所谓容器的边界和大小,是指要对容器使用 CPU、内存、IO 等资源进行约束,不然单个容器占用资源过多可能导致其他容器运行缓慢或者异常。Cgroup 是 Linux 内核提供的一种可以限制单个进程或者多个进程所使用资源的机制,也是实现容器资源约束的核心技术。容器在操作系统看来只不过是一种特殊进程,该进程对资源的使用受 Cgroup 的约束。当进程使用的内存量超过 Cgroup 的限制量,就会被系统 OOM Killer 无情地杀死。


所以,所谓的容器 OOM,实质是运行在Linux系统上的容器进程发生了 OOM。Cgroup 并不是一种晦涩难懂的技术,Linux 将其实现为了文件系统,这很符合 Unix 一切皆文件的哲学。对于 Cgroup V1 版本,我们可以直接在容器内的 /sys/fs/cgroup/ 目录下查看当前容器的 Cgroup 配置。


对于容器内存来说,memory.limit_in_bytes 和 memory.usage_in_bytes 是内存控制组中最重要的两个参数,前者标识了当前容器进程组可使用内存的最大值,后者是当前容器进程组实际使用的内存总和。一般来说,使用值和最大值越接近,OOM 的风险越高。

# 当前容器内存限制量
$ cat /sys/fs/cgroup/memory/memory.limit_in_bytes
4294967296
# 当前容器内存实际用量
$ cat /sys/fs/cgroup/memory/memory.usage_in_bytes
39215104


JVM OOM


说到 OOM,Java 开发者更熟悉的是 JVM OOM,当 JVM 因为没有足够的内存来为对象分配空间并且垃圾回收器也已经没有空间可回收时,将会抛出 java.lang.OutOfMemoryError。按照 JVM 规范,除了程序计数器不会抛出 OOM 外,其他各个内存区域都可能会抛出 OOM。最常见的 JVM OOM 情况有几种:


  • java.lang.OutOfMemoryError:Java heap space 堆内存溢出。当堆内存 (Heap Space) 没有足够空间存放新创建的对象时,就会抛出该错误。一般由于内存泄露或者堆的大小设置不当引起。对于内存泄露,需要通过内存监控软件查找程序中的泄露代码,而堆大小可以通过-Xms,-Xmx等参数修改。
  • java.lang.OutOfMemoryError:PermGen space / Metaspace 永久代/元空间溢出。永久代存储对象包括class信息和常量,JDK 1.8 使用 Metaspace 替换了永久代(Permanent Generation)。通常因为加载的 class 数目太多或体积太大,导致抛出该错误。可以通过修改 -XX:MaxPermSize 或者 -XX:MaxMetaspaceSize 启动参数, 调大永久代/元空间大小。
  • java.lang.OutOfMemoryError:Unable to create new native thread 无法创建新线程。每个 Java 线程都需要占用一定的内存空间, 当 JVM 向底层操作系统请求创建一个新的 native 线程时, 如果没有足够的资源分配就会报此类错误。可能原因是 native 内存不足、线程泄露导致线程数超过操作系统最大线程数 ulimit 限制或是线程数超过 kernel.pid_max。需要根据情况进行资源升配、限制线程池大小、减少线程栈大小等操作。



为什么堆内存未超过 Xmx 却发生了 OOM?


相信很多人都遇到过这一场景,在 K8s 部署的 Java 应用经常重启,查看容器退出状态为exit code 137 reason: OOM Killed 各方信息都指向明显的 OOM,然而 JVM 监控数据显示堆内存用量并未超过最大堆内存限制Xmx,并且配置了 OOM 自动 heapdump 参数之后,发生 OOM 时却没有产生 dump 文件。


根据上面的背景知识介绍,容器内的 Java 应用可能会发生两种类型的 OOM 异常,一种是 JVM OOM,一种是容器 OOM。JVM 的 OOM 是 JVM 内存区域空间不足导致的错误,JVM 主动抛出错误并退出进程,通过观测数据可以看到内存用量超限,并且 JVM 会留下相应的错误记录。而容器的 OOM 是系统行为,整个容器进程组使用的内存超过 Cgroup 限制,被系统 OOM Killer 杀死,在系统日志和 K8s 事件中会留下相关记录。


总的来说,Java程序内存使用同时受到来自 JVM 和 Cgroup 的限制,其中 Java 堆内存受限于 Xmx 参数,超限后发生 JVM OOM;整个进程内存受限于容器内存limit值,超限后发生容器 OOM。需要结合观测数据、JVM 错误记录、系统日志和 K8s 事件对 OOM 进行区分、排障,并按需进行配置调整。


怎么理解操作系统和 JVM 的内存关系?


上文说到 Java 容器 OOM 实质是 Java 进程使用的内存超过 Cgroup 限制,被操作系统的 OOM Killer 杀死。那在操作系统的视角里,如何看待 Java 进程的内存?操作系统和 JVM 都有各自的内存模型,二者是如何映射的?对于探究 Java 进程的 OOM 问题,理解 JVM 和操作系统之间的内存关系非常重要。


以最常用的 OpenJDK 为例,JVM 本质上是运行在操作系统上的一个 C++ 进程,因此其内存模型也有 Linux 进程的一般特点。Linux 进程的虚拟地址空间分为内核空间和用户空间,用户空间又细分为很多个段,此处选取几个和本文讨论相关度高的几个段,描述 JVM 内存与进程内存的映射关系。

image.png


  1. 代码段。一般指程序代码在内存中的映射,这里特别指出是 JVM 自身的代码,而不是Java代码。
  • 数据段。在程序运行初已经对变量进行初始化的数据,此处是 JVM 自身的数据。
  • 堆空间。运行时堆是 Java 进程和普通进程区别最大的一个内存段。Linux 进程内存模型里的堆是为进程在运行时动态分配的对象提供内存空间,而几乎所有JVM内存模型里的东西,都是 JVM 这个进程在运行时新建出来的对象。而 JVM 内存模型中的 Java 堆,只不过是 JVM 在其进程堆空间上建立的一段逻辑空间。
  • 栈空间。存放进程的运行栈,此处并不是 JVM 内存模型中的线程栈,而是操作系统运行 JVM 本身需要留存的一些运行数据。

如上所述,堆空间作为 Linux 进程内存布局和 JVM 内存布局都有的概念,是最容易混淆也是差别最大的一个概念。Java 堆相较于 Linux 进程的堆,范围更小,是 JVM 在其进程堆空间上建立的一段逻辑空间,而进程堆空间还包含支撑 JVM 虚拟机运行的内存数据,例如 Java 线程堆栈、代码缓存、GC 和编译器数据等。


为什么程序占用的内存比 Xmx 大不少,内存都用在哪了?


在 Java 开发者看来,Java 代码运行中开辟的对象都放在 Java 堆中,所以很多人会将 Java 堆内存等同于 Java 进程内存,将 Java 堆内存限制参数Xmx当作进程内存限制参数使用,并且把容器内存限制也设置为 Xmx 一样大小,然后悲催地发现容器被 OOM 了。


实质上除了大家所熟悉的堆内存(Heap),JVM 还有所谓的非堆内存(Non-Heap),除去 JVM 管理的内存,还有绕过 JVM 直接开辟的本地内存。Java 进程的内存占用情况可以简略地总结为下图:

image.png


JDK8 引入了 Native Memory Tracking (NMT)特性,可以追踪 JVM 的内部内存使用。默认情况下,NMT 是关闭状态,使用 JVM 参数开启:-XX:NativeMemoryTracking=[off | summary | detail]

$ java -Xms300m -Xmx300m -XX:+UseG1GC -XX:NativeMemoryTracking=summary -jar app.jar


此处限制最大堆内存为 300M,使用 G1 作为 GC 算法,开启 NMT 追踪进程的内存使用情况。

注意:启用 NMT 会导致 5% -10% 的性能开销。


开启 NMT 后,可以使用 jcmd 命令打印 JVM 内存的占用情况。此处仅查看内存摘要信息,设置单位为 MB。

$ jcmd <pid> VM.native_memory summary scale=MB


JVM 总内存


Native Memory Tracking:
Total: reserved=1764MB, committed=534MB


NMT 报告显示进程当前保留内存为 1764MB,已提交内存为 534MB,远远高于最大堆内存 300M。保留指为进程开辟一段连续的虚拟地址内存,可以理解为进程可能使用的内存量;提交指将虚拟地址与物理内存进行映射,可以理解为进程当前占用的内存量。


需要特别说明的是,NMT 所统计的内存与操作系统统计的内存有所差异,Linux 在分配内存时遵循 lazy allocation 机制,只有在进程真正访问内存页时才将其换入物理内存中,所以使用 top 命令看到的进程物理内存占用量与 NMT 报告中看到的有差别。此处只用 NMT 说明 JVM 视角下内存的占用情况。


Java Heap

Java Heap (reserved=300MB, committed=300MB)
    (mmap: reserved=300MB, committed=300MB)

Java 堆内存如设置的一样,实际开辟了 300M 的内存空间。


Metaspace

Class (reserved=1078MB, committed=61MB)
      (classes #11183)
      (malloc=2MB #19375) 
      (mmap: reserved=1076MB, committed=60MB)


加载的类被存储在 Metaspace,此处元空间加载了 11183 个类,保留了近 1G,提交了 61M。

加载的类越多,使用的元空间就越多。元空间大小受限于-XX:MaxMetaspaceSize(默认无限制)和 -XX:CompressedClassSpaceSize(默认 1G)。


Thread

Thread (reserved=60MB, committed=60MB)
       (thread #61)
       (stack: reserved=60MB, committed=60MB)

JVM 线程堆栈也需要占据一定空间。此处 61 个线程占用了 60M 空间,每个线程堆栈默认约为 1M。堆栈大小由 -Xss 参数控制。


Code Cache

Code (reserved=250MB, committed=36MB)
     (malloc=6MB #9546) 
     (mmap: reserved=244MB, committed=30MB)

代码缓存区主要用来保存 JIT 即时编译器编译后的代码和 Native 方法,目前缓存了 36M 的代码。代码缓存区可以通过 -XX:ReservedCodeCacheSize 参数进行容量设置。


GC

GC (reserved=47MB, committed=47MB)
   (malloc=4MB #11696) 
   (mmap: reserved=43MB, committed=43MB)


GC 垃圾收集器也需要一些内存空间支撑 GC 操作,GC 占用的空间与具体选用的 GC 算法有关,此处的 GC 算法使用了 47M。在其他配置相同的情况下,换用 SerialGC:

GC (reserved=1MB, committed=1MB)
   (mmap: reserved=1MB, committed=1MB)

可以看到 SerialGC 算法仅使用 1M 内存。这是因为 SerialGC 是一种简单的串行算法,涉及数据结构简单,计算数据量小,所以内存占用也小。但是简单的 GC 算法可能会带来性能的下降,需要平衡性能和内存表现进行选择。


Symbol

Symbol (reserved=15MB, committed=15MB)
       (malloc=11MB #113566) 
       (arena=3MB #1)

JVM 的 Symbol 包含符号表和字符串表,此处占用 15M。


非 JVM 内存


NMT 只能统计 JVM 内部的内存情况,还有一部分内存不由JVM管理。除了 JVM 托管的内存之外,程序也可以显式地请求堆外内存 ByteBuffer.allocateDirect,这部分内存受限于 -XX:MaxDirectMemorySize 参数(默认等于-Xmx)。System.loadLibrary 所加载的 JNI 模块也可以不受 JVM 控制地申请堆外内存。综上,其实并没有一个能准确估量 Java 进程内存用量的模型,只能够尽可能多地考虑到各种因素。其中有一些内存区域能通过 JVM 参数进行容量限制,例如代码缓存、元空间等,但有些内存区域不受 JVM 控制,而与具体应用的代码有关。

Total memory = Heap + Code Cache + Metaspace + Thread stacks + 
               Symbol + GC + Direct buffers + JNI + ...


为什么线上容器比本地测试内存需求更大?


经常有用户反馈,为什么相同的一份代码,在线上容器里跑总是要比本地跑更耗内存,甚至出现 OOM。可能的情况的情况有如下几种:


没有使用容器感知的 JVM 版本


在一般的物理机或虚拟机上,当未设置 -Xmx 参数时,JVM 会从常见位置(例如,Linux 中的 /proc目录下)查找其可以使用的最大内存量,然后按照主机最大内存的 1/4 作为默认的 JVM 最大堆内存量。而早期的 JVM 版本并未对容器进行适配,当运行在容器中时,仍然按照主机内存的 1/4 设置 JVM最 大堆,而一般集群节点的主机内存比本地开发机大得多,容器内的 Java 进程堆空间开得大,自然更耗内存。同时在容器中又受到 Cgroup 资源限制,当容器进程组内存使用量超过 Cgroup 限制时,便会被 OOM。为此,8u191 之后的 OpenJDK 引入了默认开启的 UseContainerSupport 参数,使得容器内的 JVM 能感知容器内存限制,按照 Cgroup 内存限制量的 1/4 设置最大堆内存量。


线上业务耗费更多内存


对外提供服务的业务往往会带来更活跃的内存分配动作,比如创建新的对象、开启执行线程,这些操作都需要开辟内存空间,所以线上业务往往耗费更多内存。并且越是流量高峰期,耗费的内存会更多。所以为了保证服务质量,需要依据自身业务流量,对应用内存配置进行相应扩容。


云原生 Java 应用内存的配置建议


  1. 使用容器感知的 JDK 版本。对于使用 Cgroup V1 的集群,需要升级至 8u191+、Java 9、Java 10 以及更高版本;对于使用 Cgroup V2 的集群,需要升级至 8u372+ 或 Java 15 及更高版本。
  2. 使用 NativeMemoryTracking(NMT) 了解应用的 JVM 内存用量。NMT 能够追踪 JVM 的内存使用情况,在测试阶段可以使用 NMT 了解程序JVM使用内存的大致分布情况,作为内存容量配置的参考依据。JVM 参数 -XX:NativeMemoryTracking 用于启用 NMT,开启 NMT 后,可以使用 jcmd 命令打印 JVM 内存的占用情况。
  3. 根据 Java 程序内存使用量设置容器内存 limit。容器 Cgroup 内存限制值来源于对容器设置的内存 limit 值,当容器进程使用的内存量超过 limit,就会发生容器 OOM。为了程序在正常运行或业务波动时发生 OOM,应该按照 Java 进程使用的内存量上浮 20%~30% 设置容器内存 limit。如果初次运行的程序,并不了解其实际内存使用量,可以先设置一个较大的 limit 让程序运行一段时间,按照观测到的进程内存量对容器内存 limit 进行调整。
  4. OOM 时自动 dump 内存快照,并为 dump 文件配置持久化存储,比如使用 PVC 挂载到 hostPath、OSS 或 NAS,尽可能保留现场数据,支撑后续的故障排查。
相关文章
|
4天前
|
设计模式 安全 Java
Java编程中的单例模式:理解与实践
【10月更文挑战第31天】在Java的世界里,单例模式是一种优雅的解决方案,它确保一个类只有一个实例,并提供一个全局访问点。本文将深入探讨单例模式的实现方式、使用场景及其优缺点,同时提供代码示例以加深理解。无论你是Java新手还是有经验的开发者,掌握单例模式都将是你技能库中的宝贵财富。
12 2
|
6天前
|
存储 Java 编译器
Java内存模型(JMM)深度解析####
本文深入探讨了Java内存模型(JMM)的工作原理,旨在帮助开发者理解多线程环境下并发编程的挑战与解决方案。通过剖析JVM如何管理线程间的数据可见性、原子性和有序性问题,本文将揭示synchronized关键字背后的机制,并介绍volatile关键字和final关键字在保证变量同步与不可变性方面的作用。同时,文章还将讨论现代Java并发工具类如java.util.concurrent包中的核心组件,以及它们如何简化高效并发程序的设计。无论你是初学者还是有经验的开发者,本文都将为你提供宝贵的见解,助你在Java并发编程领域更进一步。 ####
|
7天前
|
弹性计算 Kubernetes Cloud Native
云原生架构下的微服务设计原则与实践####
本文深入探讨了在云原生环境中,微服务架构的设计原则、关键技术及实践案例。通过剖析传统单体架构面临的挑战,引出微服务作为解决方案的优势,并详细阐述了微服务设计的几大核心原则:单一职责、独立部署、弹性伸缩和服务自治。文章还介绍了容器化技术、Kubernetes等云原生工具如何助力微服务的高效实施,并通过一个实际项目案例,展示了从服务拆分到持续集成/持续部署(CI/CD)流程的完整实现路径,为读者提供了宝贵的实践经验和启发。 ####
|
1天前
|
缓存 算法 Java
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
14 6
|
1天前
|
监控 Kubernetes Cloud Native
云原生之旅:从理论到实践的探索
【10月更文挑战第34天】本文将引导你走进云原生的世界,从基础概念出发,逐步深入到实际的应用部署。我们将探讨云原生技术如何改变现代软件开发和运维的方式,并展示通过一个简单应用的部署过程来具体理解服务编排、容器化以及自动化管理的实践意义。无论你是云原生技术的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的视角和知识。
11 3
|
1天前
|
SQL Java 数据库连接
从理论到实践:Hibernate与JPA在Java项目中的实际应用
本文介绍了Java持久层框架Hibernate和JPA的基本概念及其在具体项目中的应用。通过一个在线书店系统的实例,展示了如何使用@Entity注解定义实体类、通过Spring Data JPA定义仓库接口、在服务层调用方法进行数据库操作,以及使用JPQL编写自定义查询和管理事务。这些技术不仅简化了数据库操作,还显著提升了开发效率。
10 3
|
1天前
|
存储 监控 Java
深入理解计算机内存管理:优化策略与实践
深入理解计算机内存管理:优化策略与实践
|
5天前
|
存储 缓存 安全
Java内存模型(JMM):深入理解并发编程的基石####
【10月更文挑战第29天】 本文作为一篇技术性文章,旨在深入探讨Java内存模型(JMM)的核心概念、工作原理及其在并发编程中的应用。我们将从JMM的基本定义出发,逐步剖析其如何通过happens-before原则、volatile关键字、synchronized关键字等机制,解决多线程环境下的数据可见性、原子性和有序性问题。不同于常规摘要的简述方式,本摘要将直接概述文章的核心内容,为读者提供一个清晰的学习路径。 ####
20 2
|
8天前
|
Kubernetes 负载均衡 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第27天】Kubernetes(简称K8s)是云原生应用的核心容器编排平台,提供自动化、扩展和管理容器化应用的能力。本文介绍Kubernetes的基本概念、安装配置、核心组件(如Pod和Deployment)、服务发现与负载均衡、网络配置及安全性挑战,帮助读者理解和实践Kubernetes在容器编排中的应用。
34 4
|
6天前
|
存储 安全 Java
什么是 Java 的内存模型?
Java内存模型(Java Memory Model, JMM)是Java虚拟机(JVM)规范的一部分,它定义了一套规则,用于指导Java程序中变量的访问和内存交互方式。
21 1

热门文章

最新文章