二进制 k8s 集群下线 worker 组件流程分析和实践

简介: 二进制 k8s 集群下线 worker 组件流程分析和实践

事出因果

因为之前写了一篇 二进制 k8s 集群下线 master 组件流程分析和实践,所以索性再写一个 worker 节点的缩容

worker 节点的缩容,在置换机器的时候比较适用(又或者称节点迁移)

个人思路

worker 节点的缩容,其实比 master 节点的缩容会方便很多

  1. 将需要下线的 worker 节点标记为不可调度
  2. 将需要下线的 worker 节点上的 pod 进行驱逐
  • 如果有 label 控制的,需要提前在其他节点上打上相应的 label,保证 pod 可以在其他节点上运行
  1. 确认 pod 完全驱逐后,使用 kubectl 命令删除节点
  1. 下线 worker 节点相关的组件服务
  2. 根据情况是否保留相关的 pod 数据

准备实践

当前 worker 节点信息

节点 ip 是否下线
172.72.0.96 下线
172.72.0.97 下线
172.72.0.98 不下线
172.72.0.99 不下线

将节点标记为不可调度

注意:我这里是因为这两个节点之前就处于不可调度的状态,所以我的步骤里面是没有:打 label 的操作,只有驱逐 pod 的操作

如果节点有跑 pod,切记要先确认相关的 label,避免造成业务不可访问

kubectl cordon 172.72.0.96
kubectl cordon 172.72.0.97

标记为不可调度后,查看节点信息会出现 SchedulingDisabled 的字样

NAME          STATUS                     ROLES    AGE   VERSION
172.72.0.95   Ready,SchedulingDisabled   <none>   11d   v1.19.7
172.72.0.96   Ready,SchedulingDisabled   <none>   11d   v1.19.7
172.72.0.97   Ready,SchedulingDisabled   <none>   11d   v1.19.7
172.72.0.98   Ready                      <none>   16d   v1.19.7
172.72.0.99   Ready                      <none>   16d   v1.19.7

驱逐节点 pod

这里我会保留 daemonset 类型的 pod

kubectl drain 172.72.0.96 --ignore-daemonsets
kubectl drain 172.72.0.97 --ignore-daemonsets

将 worker 节点从 k8s 集群踢出

确保节点没有存在除 daemonset 类型的 pod 的情况下,再做踢出节点的操作

kubectl get pod -A -o wide | egrep '172.72.0.96|172.72.0.97'

我这里剩下的 pod 都是属于 daemonset 类型的了

ingress-nginx          nginx-ingress-controller-5b8hw               1/1     Running   0          11d     172.72.0.96   172.72.0.96   <none>           <none>
ingress-nginx          nginx-ingress-controller-5k52q               1/1     Running   0          11d     172.72.0.97   172.72.0.97   <none>           <none>
kube-system            kube-flannel-ds-8hflj                        1/1     Running   0          11d     172.72.0.96   172.72.0.96   <none>           <none>
kube-system            kube-flannel-ds-lwg6c                        1/1     Running   0          11d     172.72.0.97   172.72.0.97   <none>           <none>
monitor                node-exporter-lddpd                          1/1     Running   0          7d6h    172.72.0.97   172.72.0.97   <none>           <none>
monitor                node-exporter-rwnht                          1/1     Running   0          67m     172.72.0.96   172.72.0.96   <none>           <none>

将需要下线的节点踢出集群,注:别踢错集群了,要再三确认之后再踢出集群

kubectl delete node 172.72.0.96
kubectl delete node 172.72.0.97

再次使用 kubectl get node 命令后,就可以看到,那两个节点已经看不到了

下线 worker 节点相关组件

下线 kubeletkube-proxy 服务

systemctl disable kubelet kube-proxy --now

下线容器运行时 [注:我这里使用的是 containerd,大家以自己实际的为准]

systemctl disable containerd --now
systemctl disable docker --now

到此,关于 worker 节点缩容的实践就结束了

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
7月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
652 1
|
7月前
|
弹性计算 监控 调度
ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%
ACK One注册集群节点池实现“一键接入”,免去手动编写脚本与GPU驱动安装,支持自动扩缩容与多场景调度,大幅提升K8s集群管理效率。
482 89
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
本文介绍如何利用阿里云的分布式云容器平台ACK One的多集群应用分发功能,结合云效CD能力,快速将单集群CD系统升级为多集群CD系统。通过增加分发策略(PropagationPolicy)和差异化策略(OverridePolicy),并修改单集群kubeconfig为舰队kubeconfig,可实现无损改造。该方案具备多地域多集群智能资源调度、重调度及故障迁移等能力,帮助用户提升业务效率与可靠性。
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
ACK One 的多集群应用分发,可以最小成本地结合您已有的单集群 CD 系统,无需对原先应用资源 YAML 进行修改,即可快速构建成多集群的 CD 系统,并同时获得强大的多集群资源调度和分发的能力。
945 9
|
存储 Kubernetes 监控
K8s集群实战:使用kubeadm和kuboard部署Kubernetes集群
总之,使用kubeadm和kuboard部署K8s集群就像回归童年一样,简单又有趣。不要忘记,技术是为人服务的,用K8s集群操控云端资源,我们不过是想在复杂的世界找寻简单。尽管部署过程可能遇到困难,但朝着简化复杂的目标,我们就能找到意义和乐趣。希望你也能利用这些工具,找到你的乐趣,满足你的需求。
1217 33
|
Kubernetes 开发者 Docker
集群部署:使用Rancher部署Kubernetes集群。
以上就是使用 Rancher 部署 Kubernetes 集群的流程。使用 Rancher 和 Kubernetes,开发者可以受益于灵活性和可扩展性,允许他们在多种环境中运行多种应用,同时利用自动化工具使工作负载更加高效。
790 19
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
Prometheus Kubernetes 监控
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
562 0
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。

推荐镜像

更多