公有云某客户ECS ESSD云盘磁盘延迟⾼案例分享

简介: 某客户反馈了3台ECS发生云盘IO抖动,体现在IOUtil、IOWait较⾼,此案例中出现的方法论值得借鉴与参考。

问题背景

某客户反馈了3台ECS发生云盘IO抖动,体现在IOUtil、IOWait较⾼, 同时提供了同时间的⽹络总流量不超过60Mb及相关负载较低的情况,表示在相关负载较低的情况下不 应该出现云盘IOUtil、IOWait⾼情况,同时此前已引导过该客户升级了云盘类型(使⽤了更⾼ 规格的SSD云盘)。


分析过程

分析过程1

1、复核客户所提供截图发现:当时客户的1分钟粒度⽹络PPS从20+k飙升到100+K,但是对于客户使⽤ 的ECS机型来说,这样的⽹络PPS算下来每秒⼤概在200+左右,并不算⾼,不过相对于之前的未发⽣ IOWait与IOUtil⾼的情况来说确实有所上升,客户反馈业务类型为顺序写类型,所以在写的过程中若这 些IO有落地的话,也是导致IOWait与IOUtil上升的可能点之⼀;

2、业务请求类型是顺序写,顺序写场景的IOUtil可能会出现偏差(由于顺序写的特征并不能代表当时的 磁盘处理性能,有可能仅仅是请求数量较多),所以可以暂时不以IOUtil作为参考;

3、客户提供了其中⼀台机器授权,登陆该机器从⽇志看未发现ECS OS层⾯的异常,但从sar历史记录 user态CPU负载有上所上升,user态⼀般是由⾮内核应⽤程序导致(⽐如hd、中间件等); 综上分析,由于客户反馈的是3台ECS同时存在异常现象(即不⼤可能是单⼀云盘问题,除⾮3台ECS的 云盘都在同⼀个云盘集群上),从客户提供截图看异常时间点也⽐较接近,加上⽹络PPS同时间有上 升,所以可以基本排除云盘底层问题,⼤概率是客户应⽤⾃身问题,需要定位该问题分两步⾛:

A、由于⽆法确认3台ECS云盘是否在同⼀个云盘集群上,且当时底层⾏为是否存在影响IO的情况,需要 找云盘PD进⾏⼆次确认;

B、客户反馈的时间点都在周三,那么在下次周三之前要准备好捕获现场的环境,我打算⽤atop先分析 看看,因为atop⽐较轻量,分析后有⽅向再针对性的部署dignose-tools进⾏堆栈录制进⾏深⼊分析,看 下客户业务上的影响点在哪⾥。


分析过程2

经过客户部署atop、blktrace后在2020-12-09 21:08 现场复现时成功捕获到相关数据,从客户提供的监 控图看当时客户⼤数据节点bdhbaes09存在IOwait⽑刺:

image.png

通过分析atop(秒级)08~09⼀分钟的数据,发现期间并未有IOwait上升的情况(客户涉及三个盘均未 出现):

image.png

通过分析blktrace分析的链路,未发现⾼延迟,耗时较⻓的主要在D2C链路,即ECS内IO到驱动(io vmexit到kvm的交互路径)上,但也未表现出异常(平均耗时为0.2ms):

image.png

通过sar分钟级归档数据确认,均摊在21:07、21:08、21:09期间的IOWait都不⾼:

image.png

经过询问客户是否有业务的体现,客户反馈⽆业务异常,故怀疑是客户侧监控数据体现形式不同,客户 反馈监控使⽤的是开源的openfalcon监控,分析openfalcon源码发现,openfalcon的iowait指标是经过 ⾃⼰的公式进⾏计算:

image.png

经过分析openfalcon的await计算公式的值来源于nux的diskstat,⽽该函数取值是通过读 取/proc/diskstat的不同域值来进⾏计算(相当于openfalcon⾃⼰实现了⼀个iostat),所以精度、敏感 度⽐借助iostat实现的云监控、atop都要⾼,因此粒度⽐云监控、atop⾼,当捕捉到⼀个(仅1个时)较 ⼤iowait时也会体现在MAX值上(客户反馈的曲线图取值来⾃于MAX):

image.png

结论

  1. 排查ECS内部IO情况、阿⾥云监控、ESSD云盘底层均未发现异常;
  2. 由于监控粒度不同,从openfalcon的源码级分析发现openfalcon的IOWait MAX值采集⽐较敏感,在 ⽆业务影响情况下,建议参考AVG(平均值)作为ESSD云盘性能参考;
  3. openfalcon采集到的个别IOwait较⾼导致MAX值曲线呈现⽑刺,建议atop抓到现场时再进⾏⼆次分 析,⽬前请保持在每周三进⾏导⼊数据时atop的秒级监控(通过设置归档天数可⻓期开着收集),在业 务有体现或者atop显示有IOWait有异常时提单反馈;
相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—EqualLogic存储硬盘出现坏道的数据恢复案例
某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列。磁盘阵列上层划分多个大小不同的卷,存放虚拟机文件。 硬盘出现故障导致存储阵列不可用,需要恢复存储阵列中的数据。
|
2月前
|
存储 运维 Oracle
服务器数据恢复—存储硬盘指示灯亮黄灯,RAID5阵列崩溃的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块的硬盘组建了两组RAID5阵列。一组raid5阵列有27块硬盘,存放Oracle数据库文件。存储系统上层一共划分了11个卷。 服务器存储故障: 存储设备上两个硬盘指示灯亮黄色。其中一组RAID5阵列崩溃,存储不可用,设备已经过保。
|
3月前
|
Unix 应用服务中间件 索引
服务器数据恢复—LUN映射出错导致文件系统共享冲突的数据恢复案例
SUN光纤存储系统中有一组由6个硬盘组建的RAID6,划分为若干LUN,MAP到跑不同业务的服务器上,这些服务器上运行的是SOLARIS操作系统。 服务器不存在物理故障。由于公司业务变化,需要增加一台服务器跑新的应用。服务器管理员在原服务器在线的状态下,将其中一个lun映射到一台新服务器上。实际上,这个刚映射过去的卷已经map到了solaris生产系统上的某个lun上了。映射到新服务器后,服务器对这个卷进行初始化的操作,原solaris系统上的磁盘报错,重启服务器后这个卷已经无法挂载。 服务器管理员寻求sun原厂工程师的帮助。sun工程师检测后执行了fsck操作。执行完成后文件系统挂载成功。查
|
3月前
|
存储 弹性计算 固态存储
阿里云服务器云盘解析:ESSD AutoPL、ESSD云盘、PL-X等云盘性能与选购参考
对于初次接触阿里云服务器的用户来说,面对众多可选的云盘类型,如ESSD AutoPL、高效云盘、ESSD云盘、SSD云盘等,可能不是很清楚他们之间的区别以及如何选择。这些云盘在最大IOPS、最大吞吐量等性能指标上各有千秋,如何根据自身需求选择适合自己的云盘类型,是用户比较关心的问题。本文将为大家介绍这些云盘的区别,助您轻松找到最适合自己的阿里云云盘。
|
3月前
|
存储 数据挖掘 Linux
服务器数据恢复—重装系统导致OceanStor存储上的分区无法访问的数据恢复案例
服务器存储数据恢复环境: 华为OceanStor某型号存储+扩展盘柜,存储中的硬盘组建了raid5磁盘阵列,上层分配了1个lun。 linux操作系统,划分了两个分区,分区一通过lvm扩容,分区二为xfs文件系统。 服务器存储故障: 工作人员重装系统操作失误导致磁盘分区变化,分区二无法访问,数据丢失。
|
3月前
|
存储 数据挖掘 Windows
服务器数据恢复—RAIDZ上层ZFS文件系统数据恢复案例
一台服务器有32块硬盘,采用Windows操作系统。 服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器管理员重启服务器,但是服务器无法进入系统。管理员联系北亚企安数据恢复工程师要求恢复服务器数据。
|
4月前
|
存储 算法 数据挖掘
服务器数据恢复—昆腾存储StorNext文件系统数据恢复案例
一台昆腾存储设备中有一组raid5磁盘阵列。阵列上有两块硬盘先后离线,raid5磁盘阵列不可用。
|
3月前
|
存储
服务器数据恢复—服务器断电导致数据丢失的数据恢复案例
某品牌服务器中有12块硬盘,组建了一组raid5磁盘阵列,服务器内存储的是普通文件。 机房供电不稳定导致服务器断电,管理员重启服务器后发现服务器无法正常工作。 根据描述的故障发生过程,北亚企安数据恢复工程师推断故障是意外断电导致raid模块损坏。
|
4月前
|
小程序 数据挖掘
服务器数据恢复—服务器上的卷被误删除的数据恢复案例
工作人员不慎将一台服务器上的卷误删除,服务器上有一组raid5阵列。需要恢复误删除的数据。

热门文章

最新文章