带你读《企业级云原生白皮书项目实战》——3.2.3 健康检查

2023-05-25 285

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《企业级云原生白皮书项目实战》——3.2.3 健康检查

3.2.3 健康检查

readiness

kubelet 使用就绪探测器可以知道容器何时准备好接受请求流量，当一个 Pod 内的所有容器都就绪时，才能认为该 Pod 就绪。这种信号的一个用途就是控制哪个 Pod 作为 Service 的后端。若 Pod 尚未就绪，会被从 Service 的负载均衡器中剔除。有时候，应用会暂时性地无法为请求提供服务。例如，应用在启动时可能需要加载大量的数据或配置文件，或是启动后要依赖等待外部服务。在这种情况下，应用是无法承载相关业务流量的。Kubernetes 提供了就绪探测器来发现并缓解这些情况。即设置合理的就绪探针policy，让业务应用在完全启动之后，才加入到service的后端中承载业务流量。就绪探测器在容器的整个生命周期中保持运行状态，合理的就绪设置，对于应用的平滑部署和滚动更新至关重要：

a. 目前探针类型主要是EXEC， TCP和HTTP（1.24版本中会加入grpc）：如果业务是HTTP协议暴露的端口，建议探针类型选择HTTP，很多部署情况下会使用TCP探针，这种情况下存在四层监听就绪，但是七层业务还未启动的情况，可能会让业务状态未ok的pod被加到svc的后段，承载业务，进而引发业务超时或者5xx。

b.合理设置successThreshold、failureThreshold和timeoutSeconds对于pod能否平稳的提供业务应用非常重要。timeoutSeconds设置太小，比如 1ms等，这样的含义是探针1ms内没有得到回复，就认为探针失败，failure次数增加一次，这样很容易增加pod达到被判定失败的阈值，从而被从svc中移除后端，对于success来说，反之亦然。

liveness

kubelet 使用存活探测器来确定什么时候要重启容器。例如，存活探测器可以探测到应用死锁（应用程序在运行，但是无法继续执行后面的步骤）情况。重启这种状态下的容器有助于提高应用的可用性，即使其中存在缺陷。根据这个探针的行为，当探测失败达到阈值时候时候，会杀死重启容器。

a. liveness探针和readiness探针是同时启动的，所以不合理的liveness设置，可能会造成容器内应用还未完全启动时候，就被liveness探针探测失败而kill，就会引起pod一直处于不停的重启过程中，所以需要合理的设置initialDelaySeconds以实现pod内的应用完全read后，再执行liveness探针探测，或者可以设置startup探针。

c.建议liveness探针和readiness 采用相同的探测方法和策略，否则liveness探测失败达到阈值，但是readiness 没有达到，这时候pod会马上收到SIGKILL 的信号，但是其实还是在SVC的后端中，这时候就需要考虑应用的滚动更新的情况了。

startupprobe

有时候，会有一些现有的应用在启动时需要较长的初始化时间。这种情况下，若要不影响对死锁作出快速响应的探测，设置存活探测参数是要技巧的。技巧就是使用相同的命令来设置启动探测，针对 HTTP 或 TCP 检测，可以通过将 failureThreshold * periodSeconds 参数设置为足够长的时间来应对糟糕情况下的启动时间。一旦启动探测成功一次，存活探测任务就会接管对容器的探测，对容器死锁作出快速响应。如果启动探测一直没有成功，容器会在 300 秒后被杀死，并且根据 restartPolicy 来执行进一步处置。

带你读《企业级云原生白皮书项目实战》——3.2.3 健康检查

3.2.3 健康检查

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《企业级云原生白皮书项目实战》——3.2.3 健康检查

3.2.3 健康检查

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书