阿里云磐久服务器稳定性实践之路

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
简介: 阿里云服务器质量智能管理体系聚焦自研服务器硬件层面的极致优化,应对高并发交付、短稳定性周期、早问题发现和快修复四大挑战。通过“三个重构”(质量标准、开发流程、交付模式)、“六个归一”(架构、硬件、软件、测试、部件、制造)策略,实现芯片、整机和云同步发布,确保快速稳定上量。此外,全场景测试体系与智能预警、分析、修复系统协同工作,保障服务器在萌芽阶段发现问题并及时解决,提升整体质量水平。未来,阿里云将继续深化大数据驱动的质量管理,推动服务器行业硬件质量的持续进步。

一、阿里云服务器质量智能管理体系

1、云服务器“硬件质量”面临的挑战

当前GPT等异构场景大爆发的情况下,开发各种资源都受到了很大的冲击。服务器是连接虚拟与现实的桥梁,是云计算稳定性的重要基石。本次分享聚焦自研服务器,纯硬件层面探讨如何把硬件做到极致。


客户的需求角度,大家对高并行交付需求越来越强烈。从前可能更多是从计算平台演进,现在有计算的平台下又细分为X86平台、ARM平台、GPU平台阿里自研的倚天平台。大量的平台同步开发保证质量效率是一个重大课题同时,还要快稳定。当前,几乎可以实现一年一迭代,如何在一年之内把产品做到快速稳定。此外,无批量问题是质量治理的永恒话题


(1)交互的并行度更高

从前围绕Intel平台三年实现迭代,现在一年内会有多次迭。如阿里云,有IntelX86、AMDX86、倚天的ARM、其他的平台的ARM、GPU等大量的平台进行交付。此外,云服务器传统的服务器设备厂商不同云服务器要实现芯片整机云同步交付,整机厂商只做到芯片跟整机同步发布,如CPU和Intel整机同步发布。云服务器云和芯片要做到同步发布,难度更


(2)稳定性周期更短

随着摩尔定律被打破以及大模型的爆发平台的迭代非常快的,尤其是GPU平台,基本上一年迭代一次。量产则要求稳定,否则可能上一代产品还未稳定,下一代产品已发货,会导致资源研发维护难以释放。


(3)问题发现更早

要做到批量问题的治理,其核心是能更早发现问题。在问题的萌芽阶段发现,使其不演化成为批量问题,在当前的高并行交付下尤为重要。多个平台并行开发并行上量有限的资源更早地把问题发现、扼杀于萌芽阶段


(4)修复更快

更早识别出问题后,如果线上的存量没有修复,风险仍未解除。而硬件线上的升级较为困除了BMC无感升级之外升级时的机器轮转成本高,而且要求从客户层业务层再到服务器的硬件层互相配合


基于此,我们可以发现传统服务器的开发质量管理模式已经无法满足当下的需求


2、应对策略

基于以上四个挑战,我们也可以通过以下四个方面应对。这四个方面又可以从两个不同的角度出发。

第一,三个重构传统的设备厂商更关注故障率,阿里更关注场景,不同的客户对于服务器的质量标准有不同诉求基于客户场景高并发的开发模式,阿里云质量标准有三个重构。其一,质量标准是基于不同场景客户不同需求重构的质量标准;其二,在高并发模式下为实现芯片与整机、云同步发布,开发流程进行了重构;其三,关于交付模式,为应对突增的海量上量,实现快速稳定上量,交互模式进行了重构


第二,六个归一。阿里云磐久服务器实现了全域自研,从架构硬件软件测试部件制造全部归一归一,可以把所有的关键变量降到最低,将复杂的问题简化,降低出错的概率


这两个策略的本质是基于客户需求减少变量,两个策略则是阿里云特有的也是阿里云质量超越业界的核心


第三,一个全场景。阿里云有百万级的客户,设计各行各业的应用场景最难研发测试的,只有上线才会遇到,但阿里云的场景经过多年的打磨,测试用例不断完善很多场景类的问题在研发的用例已经可以测试出这是阿里云特有的全场景优势


第四,一个智能体系阿里云有质量大数据的金矿,交付链路全部数字化所有的数据经由智能分析系统智能修复系统智能分析和修复系统,在萌芽阶段发现问题通过无感修复解决问题。同时数据系统会驱动全链路不进行优化,精准改进保证投入产出比到最佳。


(1)三个重构

①标准重构

传统模式下多基于故障率套标准,虽然有多指标,但基本都以故障率为核心阿里云与之不同,它在传统的故障率的指标之上增加各类云服务特有的客户体感质量指标


如弹性计算,它更关心非预期宕机硬件故障率到一定的水平,非预期宕机不一定能满足客户的要求。因此,弹性计算需要更早的预测,进而通过强大的牵引能力避免客户宕机。但这不适用于当前的大模型大模型关心中断次数减少中断次数维修时间是核心要缩短维修时间,我们需要强大的智能监控实现自动诊断。GPU服务器的链路相对复杂,我们需要实时地确定是软件问题或是硬件问题,阿里云在这个方面有强大的智能诊断软修复系统不同的云服务不同的客户体感指标这也是所有流程和模式重构的最基础的出发点,真正云服务场景的客户都能感受到质量。


②流程重构

传统的设备厂商只进行到芯片和整机同步发布即可,而阿里云要进行到芯片整机和云实例同步发布。从开发流程的角度,传统厂商在DVT后量产基础,而阿里云从EVT开始发货,与业务联调,和所有的业务场景适配。在最终CPU和GPU发布阿里云已经完成了所有的业务场景,包括服务器自身硬件的测试业务场景的适配,实现芯片整机实例同步发布。


③模式重构

早期的阿里JDM模式为主,但后期,我们要求快速复制减少关键变量快速上量后产能无缝互补,因此,交付模式也发生了很大改变。


通过三个重构,阿里云构建了芯片整机和云同步发布阿里云服务器的开发流程与交互模式核心是灰度治理在与业务适配研发测试过程中,早期发货机型的灰度各个场景的灰度接入了智能的分析系统。初期,智能的分析系统发现萌芽阶段的问题并进行智能修复,然后平台发布稳定。


(2)全域自研归一

把所有的变量减少到最小。


①架构归一

2017年之前,阿里直接采购各家的服务器,统一了标准规格每个厂商按照阿里的规格设计服务器。这样,基于一代产品,阿里要管理n个新产品每个厂商所有的架构用例、BOM不同,这表明早期阿里只能以规格验收行形成一个通用的测试用例需要控制的变量十分庞大,管理成本非常高也很难保证质量。2017年以后,阿里服务器开始全域自研,逐步从整机到部件芯片,倚天芯片大幅减少变量,各领域的质量也在持续提升。阿里云架构归一到方架构。


②硬件归一

无论是哪个厂商生产的原理图和BOM,最后都归于一份


③软件归一

即使用一个平台、一套代码


④测试归一

包括阿里自研测试工具全场景前移的测试用例


⑤部件归一

包括大量的自研部件,某些没有资源部件也实现了白盒化,把PSU、风扇线缆进行白盒化管理


⑥制造归一

所有的制造均只有一套DFM,所有厂商可以平滑复制把关键变量降到最低。


(3)全场景

阿里云有全场景持续迭代的层次化测试体系阿里从芯片到板级,到整机一直到机房业务的前置都有完整的层次化测试体系且阿里有全场景打磨的测试用例百万级客户各类应用场景持续打磨是测试很重要的输入。此外,超级大规模的极端大策压测演练,也是研发场景不具备的。


(4)智能管理

重点在于“智能在哪里以及如何构建大数据驱动的云服务器质量管理体系。即使是非常完善的开发测试体系,也只能是尽可能地减少问题的发生,但彻底杜绝问题。因此,我们还要构建快速发现问题和快速修复问题的能力。


服务器的稳定性治理有两个痛点是批量问题,二是新产品早期故障率高的问题。传统的故障率治理模式基于故障率的监控,而对故障率的监控存在缺陷,只有当故障率出现异常才会发现治理,这段时间会超过SLA的管控。另一个是场景类的问题,通过故障率的监控模式是失效的,这也是传统模式很难及时发现问题、治理的原因。理想的模式是在萌芽阶段发现相关的问题,快速修复。即在不影响SLA的情况下,彻底解决问题


传统的自建IDC,要达到上述的理想状态两个关键要素一,要有全场景的数据;第二,要有强大的分析体系,通过该体系智能地进行7×24小时的分析,维护资源是无限的。传统的自建IDC模式无法解决这两个痛点一,其数据不完整各个厂商的接口数据格式不很难拿到全链路的数据从研发到生产运输上架后期应用,包括机房环境尤其是租用的机房,这些精细的数据很难获取。此外,海量的数据分析很难实现很难使用算法分析出批量问题。


第二,修复慢系统级的无感修复需要从产品的设计开始规划,包括软件和平台的建设,各厂商的修复升级能力千差万别传统的自建IDC由于缺乏系统级的无感修复,因此很难实现在萌芽阶段的问题发现和治理。


阿里云通过阿里云的智能预警分析和修复系统实现萌芽阶段问题的发现和快速修复。它主要分两个系统,是沧海系统,它是对数据层的分析,包括智能预警和智能分析一是啄木鸟修复系统,发现问题后通过智能的修复平台自动修复轮转。所有智能预警的首要核心是数据,所以阿里云从生产到货,所有的部件的温度环境性能功耗业务机房各个维度都实现了数字化这些数字化的数据定位问题尤其是定位场景问题极为关键。当有了全链路的数据之后多平台的并行开发所有厂商的开发维护人力提出了挑战。但智能分析系统,我们无限的维护资源,可以24小时实时分析数据。


对于数据的分析,阿里有批量问题的算法基于趋势的算法基于传统故障率的算法基于故障特征的算法、基于定位思路把研发的定位问题的思路转化成算法算法,还可以对采集的所有数据进行交互式分析,快速定位到场景下异常的规律,进而缩小到精细的场景。如果使用定位思路算法可能它会直接告答案并触发预警。有一个案例某租用的机房冬天较为干燥需要加湿,但用于加湿存在问题,一般而言会导致大量机器被腐蚀。但在没有大量机器坏的情况下,通过监控风扇和PSU的故障率发现精确到柜列的某个机器,风扇和PSU的故障率其他的机器不就此精确找到了问题所在,提前治理,及时阻止了批量掉电情况的发生案例中,对于问题的定位精细到机柜,按机型产品代次厂商等所有相关的数据从各个维度进行分析,超越了人的能力。


该过程非常重要,可以保证所有的问题在萌芽阶段被发现、解决,其中完善数据决定了发现时间粒度分析的准确性。有了这些数据,有了7×24小时的自动分析,可以很快地给出解决方案。从前,问题发生后可能要客户沟通,获取相应的日志,再进行沟通,需要经历几天的时间才能找到问题所在,但复现又是一个难点。但阿里的预警分析可以找到精确的异常点,包括研发,可以很容易找到该场景复现。此外,问题定位公关时间也会大幅缩短这一系列质量问题的治理都在传统的基础上有了极大的效率提升


在给出解决方案后啄木鸟的智能修复平台可以实现解决方案灰度。而灰度有其独立的算法,即使发生异常也不会触发集群的SLA。通过灰度它会通过大规模的智能调度,业务上层的机器互动,自动轮转升级因为升级是无感的,有感的升级会根据业务的预埋轮转自动轮转接,此外,还升级以后借助业务正常重启升级,无需干预。


几百万存量数据实时处理的服务器已经超过了人类的处理极限,所以必须依靠靠AI。

前文所述的数据分析、数据修复仅是数据智能分析价值的一小部分,它更大的价值在于质量大数据的智能分析质量大数据的智能分析会驱动三层循环,进行到全链路的持续改进。第一层循环就是前文所述的那一部分智能分析;第二层循环是驱动所有流程的源头,这些问题不停打磨设计标准包括流程规格用例,都以数据为驱动第三循环是还是驱动无感升级能力不断提升,包括微码、软修复固件热插拔预埋管理等都以数据为核心,驱动全链路的持续优化


纵观业界的质量管理方法,最早以产品后的检测为基础,当今使用的是以质量规划防错的重点的过程管理模式,而在云场景下,逐渐过渡到以大数据为支撑的预测性的质量管理模式这种大数据为预测驱动的管理模式可使得投入更精准,可以围绕数据预警得到的信息精准解决问题,减少了人力资源的浪费。


3、优秀实践

(1)“智能预警、分析、修复”系统,让硬件快速迭代,新平台发布即稳定

阿里的第一代自研平台基于Purley使用JDM模式智能分析。2017年开发的1.0版本,它和阿里云采购的其他一线服务器处于同一水平线随着业务场景上量的爬坡,经历18个月达到故障率的顶峰,该顶峰值持续14个月后逐渐下因为当时的修复能力问题发现能力都相对较弱

在Whitley平台,使用的是EDM 1.0模式所有的硬件软件架构设计开始归一,智能分析和预警修复系统也迭代到2.0。这是因为当时的发货量已经相对较大,可达几十万。爬坡的时间大幅缩短,前10个月是在CPU发布之前业务进行联调灰度,客户开始售卖到峰值仅有不到半年的时间,故障率的下降没有明显的峰值,仅在3个月内即可完成问题的修复收编线上机器的轮转,进而下降到极低的水平。


在Eagle Stream平台,它使用SPR的CPU,收敛更快,但由于目前发货量仍旧较低,说服力可能有一定欠缺


可以发现,客户的体感峰提前了八个月。关于批量问题的数量,Whitley平台减少了90%以上的批量问题,量产以后除了料的问题,几乎没有涉及客户体感的批量问题。对于故障率的峰值,Whitley降低了50%以上持续的峰值缩短了80%以上,几乎没有峰值,维修成本降低了50%以上非预期宕机率也大幅降低,故障率峰值和持续时间都在前移。


(2)通过质量大数据智能分析挖掘深层次问题,精益求精,实现双赢

通过质量大数据的分析,阿里云率先在业界发现了很多深层次的风险,而这些问题都在正常故障率监控之下,必须基于场景才能发现的问题,甚至研发厂商都尚未发现。阿里在发现这些问题之后,联合供应商一起进行治理。比如器件芯片内存、Retimer(GPU掉业界痛点)、CPU和硬盘

在早期CPU与Intel深度合作,进行深度的数据互动,在平台发布一起解了15个软硬件问题,发布后迅速实现稳定交付。


电容一线大牌的电容在高温区域失效率高,在监控大盘下很难发现,但在阿里监控体系发现在主板固定的温度高的位置失率效高。在阿里熔断后,厂商也分析了自身产品与友商的差异,形成了工艺的突破,阿里联合完成改进,故障率达到了业界的先进水平。


内存条一线大厂一年以后发现其某些批次内存条上的电容厂商失效率高,及时熔断。在有了海量的采集数据后,硬件的质量改进发生了变革在这个方面阿里云与合作伙伴实现了共赢阿里云可以在问题解决的基础上快速稳定,达到超过业界的质量水平,供应商的新器件可以在阿里云丰富的场景快速催熟。同时,还推动了技术和工程领域的突破。


4、展望未来

AI包括云计算的场景数据,为质量改进开辟了一条快速通道,期待服务器更多的生态合作伙伴,能够一起基于大数据驱动的质量智能管理体系进行更深度的合作,持续提升云服务器行业的硬件质量水平

 

二、阿里云服务器故障监控诊断和预测实践

1、云服务器故障处理带来的挑战

该部分介绍在当前海量的服务器上网的情况下硬件服务器常见的故障首先质量上要观测硬件的数据行为,要进行监控。而要进行监控常见的手段是把工具部署在内的服务器。但如果是裸金属场景,则无法部署工具,也无法机器上的日志


其次,阿里云除了传统的Intel X86服务器也有AMD、ARM服务器,各种CPU的架构不同,决定了其诊断方式不同,收集数据的格式也不同。这给硬件诊断带了大的挑战。同时,当业务正在运行时,如果发现业务故障,要停止业务运行,进行迁移的代价非常大。所以,我们希望业务没有感知的情况进行


此外,随着AI大模型时代的到我们需要采购很多与AI相关的GPU、网卡硬件器件,而这些资源非常昂贵。如果训练产生故障,通常情况下最快速的法是更换硬件,但需要准备多少备件是一个问题。如有100台机器在训练,假设故障率是5%否需要准备5备件准备数量偏多,则会造成成本的浪费,反之,则可能会导致业务无法衔接。因此,我们需要一种较精确的预测能力。


2、监控、诊断、预测各自领域架构与实践

基于上面提到的服务器故障模型,该部分介绍统一处理硬件的运维架构,并介绍每一种架构的实践。

服务器硬件运维的大图包含了监控诊断预警测试维修等内容,整个硬件运维是一个完整的闭环甚至有自己的运行逻辑,它分为五层:


最下面是产品的硬件层,包括磐久系列的X86 ARM服务器,常见的硬件组件其中衔接上的软件和硬件中间会有一层标准规范层,也是阿里云服务器的所有动作都基于标准规范,如果不是标准规范,则将其改为标准规范满足各种标准规范的应用接口。再上层是技术通道层,对类似于巡洋舰的采集监控预测软件平台,它需要带内的信息,包括Agent、Tool等如果在裸金属无法安装,通过外的欧盟BMC、Redfish等接口进行交互采集信息给巡洋舰同时,还有阿里云自研的诊断方案业界的FA给到诊断平台金轮。再上层是运维服务层,包括测试系统预警系统维修系统服务于ECS运维最上层是业务层。


(1)监控系统——巡洋舰

①监控架构

如果无法发现故障诊断维修预测更是无法企及。因此,巡洋舰是所有运维平台的开端,负责发现问题巡洋舰软件架构部分介绍


平台层最接近维修系统业务管控主要负责制定规则如故障码日志抓取选择的机器范围以及制定规则的方案(包含范围匹配频率计算),最终把规则制定匹配行为的错误上报。中间是调用集团公共组件最下面是端侧的工具层,包含了标准工具自研的工具,带内的会部署在host主机、BMC,进行OEM以及Nvme。与传统的监控最大的区别在于,传统的监控基本上是轮询的,命令,下层数据响应,近几年添加了触发模式,在出现硬件故障时,进行轮询外,还可以中断触发上报收集的类型也比较包含本身的日志以及Metric指标性的数字如占用率)以及打包的package。覆盖场景包含Rack机型复合机型最终发现核心指标故障发现率可以达到95%,准确率也达到95%以上,这也是阿里云多年百万级服务器运维经验的总结。


②带外化实践

前文中提到,有些工具无法在带内部署,要在外进行在支撑AI的业务上发现,如果走内途径非常的复杂,不仅是工具部署问题容器内的工具也法处理。经过探索,我们发现了比较简洁的访问方式,通过BMC带外直采数据即可绕过复杂的流程拿到所需的指标和日志进行后续的维修告警等活动。近几年外监控的加成下,监控覆盖率从7%提升到了80%,且逐步完善一重大进步中要求阿里与硬件厂家讨论适配合适的参数,通过外的手段获取。这一设想已有成功案例,如阿里云与CPU厂家对PECI接口进行了定制,从厂家获取了CPU关键的数据作为硬件的监控。

对带外化的挑战,阿里云完成了三项任务:


一,我们把部件的属性进行了拓展如传统的CPU内存到GPU的卡网卡电源,都进行了扩展第二监控协议由传统的IPMI发展到Redfish,增加了很多标准规范和功能的扩展。虽然IPMI已经发展了20年,如今几乎已经没有更新,Redfish一直在持续更新阿里云也是Redfish的主要的贡献者;第三,支持日志秒级上报,这意味着所有的监控发生的问题不依赖于轮巡轮巡可能会隔5分钟20分钟采集,一旦发生故障则无法修复的,如果使用秒级上报,在提升故障发现速度的同时,对后续的预测工作也有很大帮助。


(2)诊断系统——金轮

当巡洋舰监控发现问题后,会把问题交给金轮,产出相应的解决办法

①诊断架构

金轮分专家模式在线模式)和深度模式(离线模式简而言之,在线模式不影响业务,离线模式已经确定故障,必须要诊断维修,会把业务迁移,进行离线处理。


当巡洋舰把错误给发给金轮后,金轮会触发一次采集判断,判断机型参数以及白名单,这是为了避免在线的业务抓数据时导致未死机的机器宕机。因此,我们要遵循最小匹配原则抓取数据再经过自研的诊断方案行业厂家通用方案进行特征匹配同时还有AI辅助诊断。如果专家诊断结果和AI诊断结果一致,则说该次诊断有效命中了发现的问题。如果判断是误报,则可以对其拦截,直接返回巡洋舰,告知本次误报的情况,说明系统不受影响如果专家系统诊断出了问题,则产品需要确认,迁移业务,再进行深度诊断。或再次运行所有功能,或运行所有的存储介质因为其中受到了有损诊断,会数据产生影响,因此会把业务迁离修复建议常见的是换内存换CPU,当然软修复(重启后故障消失)的价值也高,可以避免进行下一步的处理。因为下一步的处理会来较高的代价,如业务、更换机器,耗时耗能。


②线上部署实践

金轮进行了日志的精细化以及外化进行。故障的机器会把日志分为几部分一个是BIOS导致的中断触发的SMI,一个是BMC导致内本身OS的记录PECI。然后通过上面触发,以带内带外的方式采集到应的日志,送到专家系统进行专家诊断离线诊断,得到对应的结果


个过程中,支持的硬件范围越越广,随之支持的部件越多,链路也越越长传统的PCIE控制器到端,如今增加了switch多一次链路的缠绕),日志的范围也越越广


金轮故障日志的采集更精细化,如何确定需要集的日志哪个日志有帮助?哪些日志不会系统运行产生危害?这都是长期的经验总结。此外,金轮有和巡洋舰类似的诉求和应措施,即通过带外采集,在不影响系统的同时对core的资源也较少,因为带内采使用到带内的资源。


经过一年的运行,金轮在线诊断调用了8800万次,其中7000次拦截误报快速进行修复,这巨大价值。


(3)预测系统

预测是把常见的硬件进行了分类,核心是通过Paper技术手册专家生成数据系统日志。目前,行业已有了相关的预测方法可以直接使不成熟的方案可以与厂家进行联合定制。利用定制的数据通过特征工程,常见的生成的样本进行训练和调优产生相应的模型部署业务上阿里云是个闭环的系统,上云之后可以对结果进行验证,产生增量的样本,再重新反馈。根据这套循环的算法会越越优,系统使用得越久越好。关于定制数据,以前Nvme盘,业界是没有监控范围,没有预测手段,加了定制参数后即可进行预测。


3、小结与展望

无论是监控领域,或是诊断领域,都会全面走向带外化通过带外化的方式进行采集,同时把日志精细化。预测要与厂家进行深度合作,定制适合自身业务模型的数据,进一步提升准确率和召回率。最后让故障的数据更好地服务故障处理让阿里云进行更精准更高效。

 

三、阿里云服务器层次化测试体系

1、阿里云服务器稳定性与测试的挑战

(1)业务场景丰富

阿里云场景非常丰富,这即是优势也是挑战。阿里云自有的业务全面上云,同时,公有云上的其他客户也有各种丰富的业务场景。因此,服务器的的种类和要支撑的场景非常多服务器的种类包括计算型存储型、异构、AI以及网络型,节点有1U、2U、4U、5U、6U等,还有单节点多节点所有的服务器类型,都需要保证质量能够满足业务的需求


(2)先进工艺

服务器的核心部件演进速度非常从工艺的角度出发,从之前的14nm7nm、5nm、3nm。CPU和GPU也是如此,CPU的核数163264发展至128192,明年可能会演进至256核。于功耗,CPU单芯片的功耗已500W,GPU单芯片的功耗已1000W。一台服务器中放8、16个,这种功耗密度整机的散热功耗电源的设计和测试的质量考验很大。除了功耗以外,还有内存的容量HBM,其制造相对复杂,还有可靠性也需要考虑,之前的容量多为80GB、90GB,现在已发展至192GB。DDR单个内存条128GB,网卡从25GB、100GB逐步演进到200GB,后续还会快速演进到400GB。核心部件的快速升级,对其功耗密度、来料质量整机测试部件测试带更大的挑战。


(3)AI机型的高可靠要求

2023年开始,阿里云面对的核心挑战是AI服务器。


①高速链路复杂

AI服务器和传统的计算型存储型服务器不同从CPU出来后经过些Retimer,再到多个PCIE switch下面,再到Retimer、GPU,再NV link或NV switch,此外,PCIE switch下还有多张网卡、SSD。整个高速链路非常复杂服务器内部存在高速的PCIE、NV link,PCB服务器之间的走线导致高速链路非常复杂链路的稳定性要求很高。除走线外,链路的稳定性依赖于部件,如CPU的PCIE和Retimer参数,再加上PCIE switch的配合以及下面Retimer有些Retimer是OAM带的,两个Retimer可能不是同一个厂家参数的适应性以及双方的配合会带很多链路的问题。


②部件种类和数量多

除链路质量,其中涉及的部件类型也服务器内部的部件或核心器相较于以前约有2-4倍的增长。每部件或分布二版本出问题,都可能会导致整机出问题


③可靠性要求高

在AI的集群上部署千卡万卡,未十万卡无论是多少卡的集群,一旦有一张卡或一条链路一台机器出问题,整个训练集群的性能会急剧下降。我们必须中断之后将其剔除才能继续进行测试。换言之,AI场景下服务器质量可靠性要求上升了一个数量级。


④交付节奏快

近几年,用户对AI需求尤其旺盛,因此,研发测试环节对交付节奏要求非常高。基于此,测试效率测试质量都面临着挑战

此外,服务器外部也有很大的挑战。万卡集群都要接入光模块,而光模块本身的可靠性也在测试范围之内。如集群中有几万个光模块


(4)重点问题分布参考

传统服务器计算型或存储型服务器在线上的故障约有40%是CPU导致的,约有20%来自于电源,18%左右来自于内存。近年AI服务器线上故障约有52%来自于GPU卡或OAM模块,少量来自于内存的问题


在制造端的故障,制造装配制造装开始配置的,内部的高速线缆多,工艺比较复杂)带来的问题占高,然后是GPU本身的模组料的质量问题,以及高速链路(RetimerPCIE switch线缆、连接器等的问题。


因此,传统的CPU服务器重点拦截的是CPU内存CPU电源的问题,AI服务器重点拦截的是GPU模组高速链路以及制造装配的问题。


2、阿里云服务器的测试体系

测试是分层的,从芯片测试到板级测试由于引入不同的部件,有部件级的测试整机测试生产测试,然后在生产阶段或在出货之前进行业务的前置测试,即业务场景级的测试,还包括机房到货压测业务的集群测试。经过这一系列的测试之后才会交给业务方,确保交付的服务器的质量。


从整个测试体系来看,测试活动更加丰富。由于阿里云有自研芯片,因此会有芯片的原验证样片验证硬件的研发测试,这三个属于研发测试;在生产线,包括机型测试实验室测试业务前置测试工厂测试资源池测试机房压测、业务集群测试等。为了支撑测试,哥斯拉测试平台用于支撑研发测试,金刚测试平台用于支撑生产线测试。这两大测试平台分别支撑服务器的研发测试和生产测试生产测试之后产线上的所有数据也会收集回进行存储,在存储之前进行性能有效性覆盖率以及批量问题漏测改进分析。同时,改进测试流程测试规范测试用例测试方案测试资产以及需求基线等。阿里云有自研的工具,包括自研的部件,以及产线上针不同部件错误类型不同的压测工具测试技术员会会统一看护流程规划以及工具。


接下,重点技术委员会平台工具数据化几个维度展开讲测试体系。

(1)技术委员会

测试技术委员会是服务器的虚拟组织,主要负责测试规范的制定过程包括测试策略测试过程、交付测试报告的评审测试的覆盖度完备性看护、漏测分析改进负向分析)以及公共能力拉通构建。这个虚拟组织会把所有的部件整机以及生产的能力工具统一拉起。


(2)工具

①自研测试工具

自研芯片和自研部件,在每个领域都有一系列的资源工具在CPU领域有自BareMetal测试系统,该系统不依赖于标准的Linux,启动非常快,同时Linux启动会锁定中断页表安全域,系统启动后页表中断安全域随意可配可以确保CPU达到全面的覆盖。在网卡领域,自研了RDMA测试工具,支持业界标准的ROCE V2协议也支持阿里自研的RDMA协议。对网卡做到功能性能协议一致性,可针特定故障的异常注入确保网卡的完整覆盖。在SSD领域,阿里云自研了用户态的测试驱动,确保NVME前端协议和命令完整覆盖


同时,也有自定义的VU命令确保可以SSD的固件每功能点都能被最主要的是有业务pattern的提取和测试回放,会把不同的产品,包括EBS、OSS、数据库硬盘访问的pattern和特征模型提取出,最终在芯片测试或者SSD盘测试回放,确保SSD盘功能的可靠性。在高速链路接口领域,针PCIe和CXL有自研的测试卡,可以模拟RC和EP,可以构造任意的PCIe和CXL的报文,支持各种异常报文和故障的注入确保在各种场景下卡CPU都没有问题


②整机压测工具

不同的实现有不同的测试种子。针CPUGPU、PPU、vDPU、网卡内存测试都有专用的工具部件也会覆盖基础的指令集应用库底层的硬件电路,还会针特定的CPU的静默错误、HBMECC、DDR的ECC压测带宽极限功耗散热等进行测试。最终历史问题产线上发现问题的Golden case也会合入到这一系列的工具集当中确保整机每部件压测压力足够大。


(3)平台

CPU网卡XPU、SSD等核心部件每种核心部件都有几十种不同的型号,们会进行微架构、基础Benchmark上层库以及典型业务的性能测试数据会统一进性能平台。今天平台上会收集所有芯片或部件的规格性能数据,并可以实时拉通横向也支持在线的一键测试自动生成测试报告等。这些数据会支撑芯片的定制和选型,也是生产测试研发测试性能测试的用性能基线,厂商发布新的分模版本观察其性能是否跌落?在引入新的器件之后,在不同场景下,确保从微架构到业务场景都满足了用户的需求。


(4)全流程云上生产测试系统(金刚)的演进

目前,生产测试平台金刚已迭代到第四代。在最早1.0时期,仅给出了统一的测试方案判据执行测试工具测试程序是厂家阿里云只有离线的数据。到2.0时,所有的测试程序全部自研,并且构建了在线的测试系统,所有的数据阿里云打通,但可能效果有限,当时数据是T+1的,但有了数据可以构建批量问题的预警能力,进行在线的运维最近两年,3.0实现了全面的数据化,且数据都实时更新可以进行精细化的自动预警。目前正在研发的5.0进行了动态测试策略的调整,针不同厂家不同的机器实时调整测试策略智能组合实时的数据问题智能定位通过平台不同版本的演进,实现了测试效率和测试质量的双重提升。


云上的测试数据回传存储,到数据分析和展示以及数据的消费前面几个流程之间是打通的,现在数据化的重点在数据消费。目前,已经进行了线上的诊断部件的预测以及测试用例的优化效果不佳的方面也在持续加强。


3、AI服务器的测试挑战与应对

(1)高速链路类问题拦截

由于高速链路非常复杂,所以首先会采用Cycle Resets、SBR Test或Bert Verify模式激发故障,同时收集所有的参数,包括PCIe para和X-link的参数。单独的一个参数可能没有问题如果把几十台几百台,甚至上千台的参数都收集统一分析后,有的参数在协商之后大概率会出现问题最后是状态监控,包括Link sta、AER sta、Parity MismatchRecovery count等。


(2)GPU模组

GPU模组也有相应的测试。如功耗,从几代的GPU功耗和EDPp来看,基本上呈现成倍数的提升,这会对OAM带电源的生态负载能力散热一致性带很大的风险,因此我们要对其进行拦截。另外,业务模型运行,负载也态突增,所以在测试也会采用类似的手段压,确保部件在线上应用不出现问题


电源类的问题一般会采用温变加EDPp拦截,在拦截进行遍历。但worst case不一定是高温,也可能是低温,有的GPU在低温模式也会受到较大的影响。对于大模型的压测,厂家给的EDPp工具无法压到最极限的场景运行业务压力可能会大于比EDPp工具压力,所以也同时使用大模型压测,比EDPp工具更有效


散热一致性方面,在压测也会监控每个GPU的温度。如同一台机器有8个文本,其中7个文本的温度基本一致,但另一个模组的温度高出10-20基本属于散热的不良品,未在线上很容易出问题,需要拦截。


4、阿里云服务器测试的未来规划

首先,阿里云会进行新技术的测试储备;其次,测试模式也会发生变化,单机交付转变为机柜级的交付,即从单机测试机柜级的测试集群测试演变;同时,安全测试会从芯片安全固件安全平台信任根服务器的安全测试会更加底层深入;此外,测试的服务化,从前服务生产测试全面上云,未来我们的研发测试也会全部上云;接下来是测试数据化,未来会在数据消费方面进行更多的测试数据日志挖掘和大数据的分析,更好地进行预警和改进的分析最后,测试智能化测试本身,我们会不断探索,尝试使用AI和机器学习的模式改进测试,包括用的设计脚本的开发结果分析报告的生成,目前约已实现30%自动生成,未这个方面持续发力。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
7天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
6天前
|
存储 运维 安全
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
|
14天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
1天前
|
机器学习/深度学习 弹性计算 缓存
简单聊聊,阿里云2核2G3M带宽云服务器与轻量应用服务器区别及选择参考
2核2G3M带宽云服务器与轻量应用服务器是目前阿里云的活动中,入门级走量型云服务器,轻量云服务器2核2G3M带宽68元一年,经济型e实例云服务器2核2G3M带宽99元1年。同样的配置,对于有的新手用户来说,有必要了解一下他们之间的区别,以及各自的购买和续费相关政策,从而选择更适合自己需求的云服务器。本文为大家简单分析一下我们应该选择哪一款。
|
1天前
|
监控 安全 数据库
阿里云国际站:如何使用阿里云国际站服务器
阿里云国际站服务器是一种强大的云计算服务,可以帮助用户轻松搭建和管理自己的网站、应用程序和数据库。本文将介绍如何使用阿里云国际站服务器,包括注册账户、选择服务器配置、安装操作系统、配置网络和安全设置等方面。
|
4天前
|
弹性计算 安全 搜索推荐
阿里云国际站注册教程:阿里云服务器安全设置
阿里云国际站注册教程:阿里云服务器安全设置 在云计算领域,阿里云是一个备受推崇的品牌,因其强大的技术支持和优质的服务而受到众多用户的青睐。本文将为您介绍阿里云国际站的注册过程,并重点讲解如何进行阿里云服务器的安全设置。
|
5天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
13天前
|
开发框架 缓存 .NET
阿里云轻量应用服务器、经济型e、通用算力型u1实例怎么选?区别及选择参考
在阿里云目前的活动中,价格比较优惠的云服务器有轻量应用服务器2核2G3M带宽68元1年,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年,这几个云服务器是用户关注度最高的。有的新手用户由于是初次使用阿里云服务器,对于轻量应用服务器、经济型e、通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍和对比,以供参考。
|
域名解析 弹性计算 NoSQL
飞天加速计划·高校学生在家实践——ECS服务器初体验
我当前是计算机专业研二学生,现就读于北京科技大学,主攻方向是计算机视觉(CV)中的图像分割,我们实验室也有GPU计算集群,不过在知乎偶然一次机会了解到阿里云的高校计划,从链接点进来后,经过一系列熟悉的操作,我慢慢了解到云服务器ECS这一概念。
|
21天前
|
弹性计算 运维 安全
阿里云轻量应用服务器与ECS的区别及选择指南
轻量应用服务器和云服务器ECS(Elastic Compute Service)是两款颇受欢迎的产品。本文将对这两者进行详细的对比,帮助用户更好地理解它们之间的区别,并根据自身需求做出明智的选择。

相关产品

  • 云服务器 ECS