备案控制台

开发者社区 > 云原生 > 正文

1.4.5版本的集群节点数量发生变更时，distro checkSum时会删除节点中的临时服务实例缓

nacos版本： 1.4.5

运行环境：jre8/x86/3节点集群+nginx统一代理

现象描述：将集群中某个节点关闭或启动时，偶尔会出现调用服务发现接口返回的hosts为空的情况。

排查过程：在出现服务发现返回的hosts为空的时间点，nacos节点的naming-distro.log日志中出现以下记录，服务s4的数据被清理：

2023-04-10 10:14:25,949 INFO to remove keys: [com.alibaba.nacos.naming.iplist.ephemeral.project-1##env-1@@s4], to update keys: [], source: 10.0.0.2:8848

追踪定位：日志出现在com.alibaba.nacos.naming.consistency.ephemeral.distro.DistroConsistencyServiceImpl#onReceiveChecksums中，该方法处理来自集群内其他节点的distro checkSum请求（/v1/ns/distro/checksum）。

查看该方法处理逻辑，发现在集群节点数量发生变更时，有可能会因各个节点更新healthyList速度不一致，导致处理checkSum请求时错误地移除了部分临时服务实例数据。

整理了一张个人猜测的状态流转图（“负责”指该nacos管理的服务(distro responsible)，“缓存”指该nacos持有的服务实例数据，“节点”指该nacos持有的healthyList）。在下图【Step5】阶段，查询s4健康实例的服务发现请求发往Nacos3时，返回空数据列表。

提问1.png

问题分析

在DistroConsistencyServiceImpl#onReceiveChecksums处理中，会准备两个List：更新key（toUpdateKeys）、删除key（toRemoveKeys）。在上图的【Step5】阶段中，Nacos2和Nacos3的healthList不一致，两边都认为服务s4应该由自己负责管理，当Nacos3处理Nacos2发送的checkSums请求时，会将服务s4有关的key放入到toRemoveKeys中，同时并不会放入toUpdateKeys中，导致Nacos3上的服务s4实例缓存在一段时间内不存在：

提问2.png

建议

是否可以在DistroConsistencyServiceImpl#onReceiveChecksums方法的删除toRemoveKeys中key之前增加一段二次检查：“若该key的数据版本号与source server的版本号一致，将该key从toRemoveKeys中移除”？

原提问者GitHub用户BlackBAKA

展开

收起

学习娃 2023-05-22 15:16:19 125 0

1 条回答

写回答

取消提交回答

解决问题123

nacos1挂掉， nacos2和3会重新计算责任节点，s1会被另外一个节点所负责，这个过程一般会小于心跳过期时间，除非你设置了过期时间为几个毫秒。

远离上在客户端和服务端都是2.0以上的话，使用长连接，数据连接到那个节点，哪个节点就是责任节点，停止节点后长连接会飘到其他节点上，这个时间一般在1s内就会完成，其他节点上旧数据会在3分钟之后才过期移除，期间这部分数据会重复一份。

原回答者GitHub用户KomachiSion

2023-05-22 20:14:17

赞同展开评论打赏

问答分类：

缓存应用服务中间件 Nacos nginx 日志服务

问答地址：

开发者社区 > 云原生 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

企业邮箱

8372

6

0

this xml file does not appear to have any style in

28168

8

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

54811

27

0

如果购买了域名，一定要备案才能用吗

35574

33

0

什么是二进制？二进制怎么算？

36974

40

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

91440

16

0

OSS的endpoint如何查看

29213

3

0

com/action/joingroup?code=v1是什么意思

204314

19

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

226725

10

0

ssl免费证书

4393

1

0

云原生

阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践，通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式，助力制造业企业高效上云，实现系统稳定、应用敏捷智能。拥抱云原生，让创新无处不在。

我要提问

热门讨论

热门文章

登录nacos客户端提示no message available，怎么办？

请教下 mqtt连接成功了，能收到消息，后面又自动断开了连接，是什么情况？

nacos登录页面打开后未登录时弹出提示：user not found及权限认证失败怎么办？

Springcloud连接nacos2.2.3一直报错403，user not found，啥原因？

博客园，csdn 这些是不是不行了，技术已经不去了？那还有哪些好的技术论坛社区

nacos.core.auth.server.identity.value和key是随便写的嘛？

怎么查看registry.aliyuncs.com/google_containers都有哪些镜像

为什么mqtt 连接一直显示 Not authorized to connect ？用的官网示例。

从哪个版本开始nacos分成了两个端口？8848和9848

Nacos登录密码忘记了如何修改？

展开全部

Docker 镜像加速器

Docker CE 镜像源站

Minikube - Kubernetes本地实验环境

微服务（Microservice）那点事

3分钟，了解阿里云热门开发者工具 Cloud Toolkit

利用Zipkin对Spring Cloud应用进行服务追踪分析

谈谈 Docker Volume 之权限管理（一）

容器镜像服务 Docker镜像的基本使用

理解Docker容器的进程管理

阿里云容器服务新建集群优化方案

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载