你好,我在1.9.0升级到1.10.0的过程中,通过官网的升级说明文档了解到1.10版本在内存上有较大的变动,所以进行了一下尝试。我的环境是8核16G的内存的台式机服务器,centos7.4,JDK8u162。使用的是默认的单机集群配置,配置了4个slot。taskmanager.memory.flink.size起初开始配置是4096m,通过部署3个程序完成4个slot的分配。接着试着测试一个流处理程序往kafka里发了一条消息,这时整个flink集群就会挂掉,task manager日志里错误是Requested resource profile (ResourceProfile{UNKNOWN}) is unfulfillable,整个flink上部署的程序全部变为重启直到全部显示为“取消”状态,此时可用slot也没有了,无法再部署程序只能停了stop-cluster后再重启才会可以重新部署。这时通过查找官网上的内存更新说明,怀疑是内存不足,所以分配taskmanager.memory.flink.size为5120m和8196m,此时成功部署程序后再测试程序仍出现整个集群重启直到全部程序"取消“状态,并且slot不可分配使用,和前一次状态一样,此次分析日志是因为日志首先显示的是The heartbeat of TaskManager with id {xxxx} timed out,是acck连接超时了。 回退到1.9.0后,同样配置下,分配4096内存和4个slot的集群运行正常,请问在1.10版本是是不是还要进一步的配置一些参数或者该版本有bug需要进一步的优先?*来自志愿者整理的flink邮件归档
有没有配置TaskManager的MaxMetaspaceSize呢?1.10默认的MaxMetaspaceSize比较小,UserCodeClassLoader加载class之后容易出现Metaspace区溢出,导致TM挂掉。可以在flink-conf.yaml文件里面进行配置 env.java.opts.taskmanager: "-XX:MaxMetaspaceSize=1024m"*来自志愿者整理的FLINK邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。