Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图

简介: Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图

Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图


说句掏心窝子的话:

Kubernetes 里,十个疑难杂症,八个最后都能追溯到“网络”。

服务超时、探针失败、Pod 起不来、节点 NotReady、偶发 502……
你去翻日志,啥也没有;
你问开发,人家说“我代码没改”;
你一看监控,CPU、内存都挺健康。

最后,锅往往落在一句很抽象的话上:

“网络好像不太稳定。”

而 Kubernetes 的网络,恰恰是最容易被“想当然”对待的东西

今天我想干一件事:
给你一条真正能落地的、从 Pod 一路查到 Linux 内核的排查路径。
不是技巧合集,而是一种系统化思维方式


一、先说结论:K8s 网络不是“一个东西”

很多人一排查就犯的第一个错是:

把 Kubernetes 网络,当成一个整体问题。

但在我眼里,它至少分 5 层

  1. Pod 内部网络
  2. Pod ↔ Pod(同节点 / 跨节点)
  3. Service / kube-proxy
  4. Node 网络 & CNI
  5. Linux 内核网络栈

你要是没分层,排查一定是乱的。


二、第一层:Pod 内部,别急着甩锅给集群

网络不通?
先别怪 CNI,先看 Pod 自己。

你第一步该干啥?

kubectl exec -it pod-a -- sh

然后在 Pod 里做三件事:

ip addr
ip route
ping 127.0.0.1

你要确认的只有几件小事:

  • Pod 有没有 IP?
  • 默认路由是不是指向 eth0?
  • 本地 loopback 通不通?

我见过真实事故:

Pod 用的是 distroless 镜像,
容器里连 ip 命令都没有,
最后靠猜查了一晚上。

结论很扎心:

你连 Pod 自己是不是“醒着的”都没确认,就开始怀疑整个集群。


三、第二层:Pod ↔ Pod,先区分“同节点”还是“跨节点”

这是一个90% 的人忽略、但极其关键的分叉点

怎么快速判断?

kubectl get pod -o wide

NODE 列。

情况 A:同一个 Node 上 Pod 不通

优先怀疑:

  • CNI bridge / veth
  • iptables / eBPF 规则异常
  • Pod 网卡被删了

你可以在 Node 上看:

ip link | grep veth

如果 veth 对不上,那基本已经接近真相了。

情况 B:跨 Node 才不通

那你要开始怀疑:

  • Node 间路由
  • Overlay 网络(VXLAN / Geneve)
  • 防火墙 / 安全组

一个很实用的命令:

kubectl exec pod-a -- traceroute pod-b-ip

看包卡在哪一跳,比你盲猜一小时都有用。


四、第三层:Service 不通?别急着骂 kube-proxy

我见过太多人,一遇到 Service 问题就一句话:

“kube-proxy 又抽风了。”

但事实是:
Service 只是 iptables / IPVS 规则的“外壳”。

你该确认三件事:

1️⃣ Endpoints 对不对?

kubectl get endpoints svc-name

如果这里是空的,那网络再好也没用。

2️⃣ kube-proxy 模式是啥?

kubectl -n kube-system get cm kube-proxy -o yaml

iptables 还是 IPVS?
排查方式完全不一样。

3️⃣ Node 上规则是否存在?

iptables 模式:

iptables -t nat -L | grep svc-name

IPVS 模式:

ipvsadm -Ln

我踩过一个很典型的坑:

kube-proxy 在
Node 上 OOM 被杀了,
规则还在,但不再更新。

结论:

Service 出问题,很多时候是“数据面还在,控制面已经死了”。


五、第四层:CNI 网络,问题集中营

说句大实话:

Kubernetes 网络 80% 的复杂度,都在 CNI。

无论你用的是:

  • Calico
  • Flannel
  • Cilium

你都必须搞清楚三件事:

  1. Pod IP 怎么来的
  2. 跨节点流量怎么走
  3. 策略在哪一层生效

以 Calico 为例

你至少得会看:

calicoctl node status
calicoctl get ippool -o yaml

我遇到过一个很经典的事故:

IPPool CIDR 改了,
老节点没同步,
新 Pod 分配的 IP 根本路由不到。

表面现象:

  • Pod 偶发不通
  • 重启“有时好,有时坏”

这类问题,不系统排查,你根本抓不到。


六、第五层:Linux 内核,真·终极形态

当你走到这一步,说明:

你已经比 80% 的 K8s 使用者走得更深了。

几个你必须掌握的工具:

conntrack 表爆了

conntrack -L | wc -l

再看看最大值:

sysctl net.netfilter.nf_conntrack_max

真实线上事故:

高并发短连接
conntrack 满
新连接直接被 DROP
应用层只看到 timeout


丢包?别光看网卡

ethtool -S eth0
netstat -s

再配合:

tcpdump -i eth0

抓包不是为了装逼,是为了终止争论。


七、我自己的一个“血泪总结”

干了这么多年运维,我越来越坚定一个观点:

Kubernetes 网络排查,拼的不是命令多,而是路径清楚。

如果你愿意记住一句话,那就是:

从 Pod 开始,一层一层往下,不要跳步。

  • 不要一上来重启节点
  • 不要一上来升级 CNI
  • 不要一上来甩锅云厂商

因为:

重启解决的问题,通常不是被你解决的,而是被你“掩盖”的。


写在最后

Kubernetes 网络这玩意儿,说难是真难,
但一旦你脑子里有了分层模型
很多“玄学问题”会突然变得特别理性。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
24天前
|
存储 弹性计算 人工智能
阿里云服务器租用价格表(2026年最新)轻量、ECS、GPU 收费标准
阿里云服务器涵盖轻量应用服务器、云服务器ECS及GPU服务器三大类,适配从个人开发到企业核心业务的不同需求,价格差异显著。以下结合最新收费信息,用通俗语言梳理各机型配置与价格,包含优惠活动、续费规则及附加资源成本,帮助用户精准把控预算。
449 4
|
16天前
|
存储 运维 Kubernetes
K8s 持久化存储怎么选?别只盯着性能,能不能活下来更重要
K8s 持久化存储怎么选?别只盯着性能,能不能活下来更重要
104 6
|
2天前
|
人工智能 Kubernetes 机器人
一键部署 OpenClaw:基于 ACS Agent Sandbox 构建企业级 AI Agent 应用
本文将详细介绍如何基于 ACS Agent Sandbox 一键部署 OpenClaw,实现按需休眠与秒级唤醒,并介绍其与钉钉等应用的集成方法。
|
15天前
|
弹性计算 安全 Linux
阿里云服务器镜像解析:公共、自定义、共享、云市场及社区镜像对比与选择参考
阿里云服务器ESC镜像包括公共、自定义、共享、云市场及社区五大类型,每种镜像具有不同的特性和适用场景。公共镜像安全稳定;自定义镜像量身定制,可快速部署;共享镜像可跨账号协作;云市场镜像一键部署,省时省心;社区镜像开放共享,满足个性化需求。选择镜像时,用户需考虑操作系统、初始配置、安全性、稳定性及成本。
|
18天前
|
存储 运维 Kubernetes
容器很爽,但 VM 还活着——聊聊 K8s 上的混合工作负载:KubeVirt 到底是不是救命稻草?
容器很爽,但 VM 还活着——聊聊 K8s 上的混合工作负载:KubeVirt 到底是不是救命稻草?
127 9
|
4天前
|
人工智能 弹性计算 运维
小白也能上手!阿里云推出 OpenClaw 极速简易部署方案
阿里云OpenClaw是开源本地优先AI智能体平台,支持邮件处理、周报生成、资料查询、代码编写等任务,数据全留本地,保障隐私。技术小白也能通过阿里云轻量服务器“一键部署”,几分钟即可拥有专属AI数字员工。
92 15
|
12天前
|
人工智能 弹性计算 机器人
阿里云gpu云服务器包年包月和按量活动,丰富多样的GPU卡型和规格
阿里云推出GPU优惠活动,提供多样GPU卡型与弹性算力,助力AI应用落地。包括96GB显存+900GB/s NVLink的大规模模型推理卡型,及L20 GPU的轻量高效部署选项,满足不同场景需求。支持包年包月、按量付费等灵活计费模式,结合vLLM框架快速部署大模型,提升推理速度与吞吐量。此外,无影GPU云电脑企业版及百炼大模型调用服务,为用户提供高性价比算力,轻松开启AI新时代。
|
9天前
|
存储 安全 测试技术
阿里云轻量应用服务器38元与云服务器99元和199元性能、适用场景区别及选择参考
2026年,阿里云推出的三款入门级云服务器,38元轻量应用服务器、99元经济型e实例及199元通用算力型u1实例,凭借卓越性能和亲民价格,满足个人开发者、小型网站及中小企业的多元需求。轻量服务器以200M峰值带宽和一键部署功能,成为快速建站首选;经济型e实例通过99元续费同价和灵活配置,平衡成本与性能;u1实例则以独享算力和5M固定带宽,为小微企业正式业务提供稳定支撑。本文通过详细对比和测评,助力用户根据实际需求选择最优方案,实现低成本高效上云。
|
7天前
|
存储 人工智能 搜索推荐
Spring AI Alibaba DeepResearch源码解读
DeepResearch是SAA社区推出的智能体项目,支持复杂信息搜索、分析与结构化报告生成。其基于Graph构建14个协同节点(如Coordinator、Planner、Researcher等),融合Plan & Execute、LLM Reflection、Hybrid RAG、Self-evolving角色记忆、HITL等前沿技术,实现端到端深度研究自动化
137 11
|
7天前
|
弹性计算 人工智能 数据可视化
阿里云OpenClaw部署全攻略,五种方案助你快速部署!
阿里云推出5种OpenClaw快速部署方案:轻量服务器、无影云电脑(企业/个人版)、AgentBay及ECS,覆盖新手到企业全场景。可视化操作,免复杂配置,一键拥有专属“数字员工”,轻松接入AI自动化能力。
334 7