备案控制台

开发者社区问答正文

Checkpoint时内存不够TaskManager被Kill掉怎么办？

各位社区伙伴大家好首先描述一下我的问题：最近我们发现有几个任务平时运行将近一个月都没发生问题，最近在进行checkpoint的时候经常失败，然后一直容错恢复重启，我们通过日志查看，发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了；报错日志：

java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current usage: 4.0 GB of 4 GB physical memory used; 6.9 GB of 8.4 GB virtual memory used. Killing container.

但是我们从他历史的checkpoint记录中可以看到它发生问题那次checkpoint时候并不是进行全量checkpoint的时候（很抱歉当时失败的时候忘记截图，给任务重启了，现在这幅图是任务重启之后的历史checkpoint截图，）；

我们为了减少增量checkpoint的大小设置了State DDL，但是这种任务还是发生了TM内存不够被KIll掉的问题，我们现在的解决途径是增大内存，或者并发，但是我们现在任务已经配置了64个并发，每个TM内存给了4G,如果不断增加并发或者内存的话会对资源有很大的浪费，因为我们可以看到平时堆内存的使用率是有限的，所以一味增加会造成很大的资源浪费。

综上。想问一下社区的伙伴有没有遇到类似checkpoint时候某个TM内存不够被Kill的问题，除了不断增加并发内存外，有没有好的解决方案，谢谢大家。*来自志愿者整理的flink邮件归档

展开

收起

moonlightdisco 2021-12-02 14:11:41 1119 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

塔塔塔塔塔塔

增大一下 taskmanager.memory.jvm-overhead 的内存试试*来自志愿者整理的FLINK邮件归档

2021-12-02 14:34:21

赞同展开评论

问答分类：

日志服务实时计算 Flink版

问答标签：

内存kill 内存taskmanager怎么办内存taskmanager 内存checkpoint checkpoint内存

问答地址：

开发者社区 > 云计算 > 问答

相关问答

Flink CDC从哪里能看到集群的taskmanager内存占用情况？

542

4

0

Flink CDC taskmanager设置20g内存都oom,谁碰到过这个问题？

450

3

0

Flink-1.16的版本是不是只需要设置这个，就可以保证TaskManager的最小JVM内存？

433

1

0

Flink CDC这样的配置，内存中的checkpoint信息会被删掉吗？

121

1

0

modelscope中，点击几次后，进程就内存溢出被强行 kill掉了，怎么解决？

215

1

0

Flink CDC请问这种情况是只能增大taskmanager的堆内存吗？

200

1

0

机器学习PAI alink执行批任务，内存不回收。直到taskmanager挂掉怎么办？

109

1

0

flink使用堆外内存一直在增长导致被虚拟机boom kill，怎么排查和处理？

625

1

0

Flink任务做sp大概率出现容器内存超用被kill 有朋友出现过吗有解决办法吗？

149

1

0

flink on yarn模式，应用模式，一个TaskManager至少会占用2G内存吗？

325

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

SLS 物化视图来了：大规模日志查询提速 100 倍，资源消耗直降 90%

Delta Join：为超大规模流处理实现计算与历史数据解耦

Apache Flink 2.2.0: 推动实时数据与人工智能融合，赋能AI时代的流处理

Forrester发布流式数据平台报告：Flink 创始团队跻身领导者行列，实时AI能力获权威认可

一文带你玩转 WebSocket 全链路可观测

还有其他疑问?