Flink jobmanager报错: ERROR akka.remote.Remoting - Association to [akka.tcp://flink@xxxxx:42895] with UID [-205381938] irrecoverably failed. Quarantining address
日志贴的格式太乱了,“java.util.concurrent.TimeoutException: Remote system has been silent for too long. (more than 48.0 hours)” 这行显示 Akka 链接断掉是因为 timeout,你要检查下断掉的 TaskManager 为什么会超时
如果日志中没错误,那么有没有可能是长时间 Full GC。或者机器之前网络有什么不稳定因素,网卡打满之类的。
从你提供的日志中无法获得更多信息。
没有遇到过类似问题,这个和 Akka 更相关从日志中的错误描述来看,'java.util.concurrent.TimeoutException: Remote system has been silent for too long. (more than 48.0 hours)',Akka 链接由于 timeout 断开,得查一下为什么超时,TaskManager 没有报错这个就很奇怪了,请详细检查下 log,stdout,stderr (如果有的话)。最好也检查下网络和 GC 情况,还有 jar 冲突等问题另,48小时这个日志也很奇怪,timeout 有这么久?
赞0
踩0