记录一次k8s APIService 包含的借口异常导致删除Pod一直处于terminating状态

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 主要是APIService 中某个api一直处于False状态,具体的是报EndpointsNotFound,通过排查解决。

问题现象:

k8s 执行 delete操作发现pod一直处于terminating

问题排查

执行:kubectl get APIService
发现:

v1beta1.events.k8s.io           Local        True                        13d
v1beta1.extensions              Local        True                        13d
v1beta1.metrics.k8s.io     kube-system/metrics-server  False (EndpointsNotFound)   71s

有个新增的APIService 处于不正常状态,然后删除重建问题依旧,查看报错:

kubectl describe APIService 

v1beta1.metrics.k8s.io 
Name:         v1beta1.metrics.k8s.io
Namespace:    
Labels:       <none>
Annotations:  <none>
API Version:  apiregistration.k8s.io/v1
Kind:         APIService
Metadata:
  Creation Timestamp:  2021-10-11T03:01:28Z
  Resource Version:    4057041
  Self Link:           /apis/apiregistration.k8s.io/v1/apiservices/v1beta1.metrics.k8s.io
  UID:                 805aac80-69b7-4c41-bd00-b7e72f1f5fcb
Spec:
  Group:                     metrics.k8s.io
  Group Priority Minimum:    100
  Insecure Skip TLS Verify:  true
  Service:
    Name:            metrics-server
    Namespace:       kube-system
    Port:            443
  Version:           v1beta1
  Version Priority:  100
Status:
  Conditions:
    Last Transition Time:  2021-10-11T03:01:28Z
    Message:               cannot find endpoints for service/metrics-server in "kube-system"
    Reason:                EndpointsNotFound
    Status:                False
    Type:                  Available
Events:                    <none>

原因:
cannot find endpoints for service/metrics-server in "kube-system"
查看下集群中的endpoints:
执行:
kubectl get endpoints

elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

这里没有发现service/metrics-server,说明service和pod的关联出现了问题:
查看下service

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https

居然没有selector 这就是问题所在service根本没有跟pod进行绑定:
最终修改service.yaml重新部署

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https
  selector:
    app: metric-server

然后查看下endpoints:

kubectl  get endpoints -n kube-system 
NAME                      ENDPOINTS                                                     AGE
elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
metrics-server            10.244.6.10:443                                               13s
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

已经发现了metrics-server 问题结局。

问题原因:

主要是APIService不正常导致一直在处在状态APIService执行不下去,最终排查到是metrics-server 中的service绑定异常导致的。

名词解释:

endpoint是k8s集群中的一个资源对象,存储在etcd中,用来记录一个service对应的所有pod的访问地址。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
27天前
|
JSON Kubernetes Shell
【Azure K8S | AKS】在不丢失文件/不影响POD运行的情况下增加PVC的大小
【Azure K8S | AKS】在不丢失文件/不影响POD运行的情况下增加PVC的大小
|
27天前
|
Kubernetes Shell Perl
【Azure K8S|AKS】进入AKS的POD中查看文件,例如PVC Volume Mounts使用情况
【Azure K8S|AKS】进入AKS的POD中查看文件,例如PVC Volume Mounts使用情况
|
28天前
|
Kubernetes Docker Perl
在K8S中,如果是因为开发写的镜像问题导致pod起不来该怎么排查?
在K8S中,如果是因为开发写的镜像问题导致pod起不来该怎么排查?
|
28天前
|
Kubernetes 安全 Docker
在K8S中,在服务上线的时候Pod起不来怎么进行排查?
在K8S中,在服务上线的时候Pod起不来怎么进行排查?
|
27天前
|
存储 Kubernetes Go
【Azure K8S | AKS】在AKS集群中创建 PVC(PersistentVolumeClaim)和 PV(PersistentVolume) 示例
【Azure K8S | AKS】在AKS集群中创建 PVC(PersistentVolumeClaim)和 PV(PersistentVolume) 示例
|
18天前
|
存储 Kubernetes 负载均衡
CentOS 7.9二进制部署K8S 1.28.3+集群实战
本文详细介绍了在CentOS 7.9上通过二进制方式部署Kubernetes 1.28.3+集群的全过程,包括环境准备、组件安装、证书生成、高可用配置以及网络插件部署等关键步骤。
118 3
CentOS 7.9二进制部署K8S 1.28.3+集群实战
|
18天前
|
Kubernetes 负载均衡 前端开发
二进制部署Kubernetes 1.23.15版本高可用集群实战
使用二进制文件部署Kubernetes 1.23.15版本高可用集群的详细教程,涵盖了从环境准备到网络插件部署的完整流程。
40 2
二进制部署Kubernetes 1.23.15版本高可用集群实战
|
18天前
|
存储 Kubernetes 测试技术
k8s使用pvc,pv,sc关联ceph集群
文章介绍了如何在Kubernetes中使用PersistentVolumeClaim (PVC)、PersistentVolume (PV) 和StorageClass (SC) 来关联Ceph集群,包括创建Ceph镜像、配置访问密钥、删除默认存储类、编写和应用资源清单、创建资源以及进行访问测试的步骤。同时,还提供了如何使用RBD动态存储类来关联Ceph集群的指南。
36 7
|
18天前
|
存储 Kubernetes 数据安全/隐私保护
k8s对接ceph集群的分布式文件系统CephFS
文章介绍了如何在Kubernetes集群中使用CephFS作为持久化存储,包括通过secretFile和secretRef两种方式进行认证和配置。
25 5
|
18天前
|
Kubernetes 负载均衡 应用服务中间件
kubeadm快速构建K8S1.28.1高可用集群
关于如何使用kubeadm快速构建Kubernetes 1.28.1高可用集群的详细教程。
36 2