《云原生网络数据面可观测性最佳实践》——五、 典型问题华山论剑——2.某客户偶发RTT增高

简介: 《云原生网络数据面可观测性最佳实践》——五、 典型问题华山论剑——2.某客户偶发RTT增高

问题背景

某客户反馈有一台节点上多个Pod出现RTT增高现象,持续时间为10~30s

排查过程

安装ACK Net-Exporter后,问题复现后,观察相应的TCP指标

establish连接数有突增,但是timewait并没有出现突降,可以确认这个pod的业务是快进快出类型,连接的关闭在对端,timewait不在本地,即establish突增的原因是由于本地业务报文回复较慢导致对端没有办法及时关闭连接所致。

image.png

image.png

 listendrops等链接相关的指标的异常是连接增多引发的结果,从这里看关键的信息还是rxqueue堆积的增多,用户进程没有及时处理业务数据,没有及时从socket中完成消费,但是txqueue没有出现堆积,说明用户进程本身没有遇到cgroup throttled级别的调度问题,发送报文的过程是通常的,问题的核心在于用户进程出现了卡顿,卡顿是由于进程本身的业务操作收到影响导致。

image.png

 

客户提供passiveopens的监控,在问题发生附近有明显的先增长后突降的现象,这是一种补偿态的图表,可能与客户的业务逻辑有关,连接的增多导致passiveoopens增长,随后由于增长,半连接队列也被打满,导致passiveopens突降。

同时客户反馈相同节点流量较高的几个pod军出现类似的问题,部分流量较低的pod没有出现明显的RTT增长。

 

客户的业务由于某些原因导致进程本身出现卡顿,覆盖同节点多个pod,从客户提供的情况大致的推测方向有以下几个:

 

iowait增高

dirty page落盘导致卡顿

经确认后客户机型为g6 104c384g,存在2个numa node,且打开了numa balance,即有可能是numa migrate导致

其他底层原因

 

 

可以排除一下原因:

 

cgroup throttle,客户反馈已开启cpu burst

调度问题,客户多个pod相同时间出现,多个cpu同时出现调度问题概率较小

 

查看了dirty page、采样的cpu使用率没有明显的回落,iowait也没有明显的变化。可以排除这些方面的原因。

 

根因原理

客户打开了numa balance,并且numa node有2个,可能存在page migrate。目前来看这个可能性较大。

image.png

 page migration相关资料:

https://www.kernel.org/doc/html/v5.4/vm/page_migration.html

 

page在不同numa node之间做迁移的情况下,可能会导致page关联的task的操作被延迟执行,从而导致进程本身的卡顿。 image.png

 查看进程的/proc/[pid]/sched文件可以看到numa_pages_migrated的数值大于0。

net-exporter监控中发现socket的rqueue堆积比较明显,同时socketlatency read100ms次数变化有突增。

解决办法

建议建议客户使用拓扑感知调度,如果是单独部署,可以关闭集群中单个节点的numa balance,具体操作方式如下:

image.png

相关文章
|
8月前
|
人工智能 云栖大会 调度
「2025云栖大会」“简单易用的智能云网络,加速客户AI创新”专场分论坛诚邀莅临
”简单易用的智能云网络,加速客户AI创新“专场分论坛将于9月24日13:30-17:00在云栖小镇D1-5号馆举办,本场技术分论坛将发布多项云网络创新成果,深度揭秘支撑AI时代的超低时延、自适应调度与跨域协同核心技术。同时来自领先企业的技术先锋将首次公开其在模型训练、企业出海等高复杂场景中的突破性实践,展现如何通过下一代云网络实现算力效率跃升与成本重构,定义AI时代网络新范式。
284 4
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
554 15
|
算法 安全 大数据
【算法合规新时代】企业如何把握“清朗·网络平台算法典型问题治理”专项行动?
在数字化时代,算法推动社会发展,但也带来了信息茧房、大数据杀熟等问题。中央网信办发布《关于开展“清朗·网络平台算法典型问题治理”专项行动的通知》,针对六大算法问题进行整治,明确企业需落实算法安全主体责任,建立健全审核与管理制度,并对算法进行全面审查和备案。企业应积极自查自纠,确保算法合规透明,防范风险,迎接新机遇。
|
运维 容灾 API
云栖大会 | 阿里云网络持续演进之路:简单易用的智能云网络,让客户专注业务创新
云栖大会 | 阿里云网络持续演进之路:简单易用的智能云网络,让客户专注业务创新
876 2
|
人工智能 运维 API
第七届 SD-WAN&SASE大会暨云网络大会 | 简单易用的智能云网络,让客户专注业务创新
第七届 SD-WAN&SASE大会暨云网络大会 | 简单易用的智能云网络,让客户专注业务创新
357 2
|
Kubernetes 监控 Cloud Native
全栈声明式可观测:KubeVela开箱即用且灵活定制的云原生应用洞察
KubeVela 是一个开箱即用的现代化应用交付与管理平台。本文我们将聚焦 KubeVela 的可观测体系,介绍云原生时代的可观测挑战及 KubeVela 的解决方案。
|
自然语言处理 监控 Cloud Native
对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合
阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。
42440 110
|
存储 监控 Cloud Native
kubevela可观测体系问题之KubeVela云原生时代可观测性挑战的问题如何解决
kubevela可观测体系问题之KubeVela云原生时代可观测性挑战的问题如何解决
184 7
|
弹性计算 运维 安全
面对蓝屏,阿里云云原生能力可以帮客户做点啥?
Windows大面积蓝屏,问题源于“CSAgent.sys”加载错误设定的“C-00000291*.sys”文件。阿里云充分利用云原生能力,通过ECS实例自助排查和OOS批量操作快速修复受损机器。

热门文章

最新文章