您是否每天花大量时间摸排云资源问题以确保系统稳定?
业务发生紧急故障,您是否还在苦苦分析大量日志定位问题?或是排队等待客服?
对云资源不熟悉,排查问题无从下手?
为了提升运维工程师及开发者(以下简称为“用户”)对阿里云资源的运维效率、降低运维门槛、减轻运维负担,阿里云推出免费运维工具——云服务诊断,包含「健康状态」和「诊断」两大核心功能。
当您的业务系统出现问题时,可第一时间查看账号下云资源(每个实例)「健康状态」是否正常。若正常则可快速排除阿里云云服务的异常,转而及时排查其它方面原因。您可通过「诊断」实时排查网络路径连通问题、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决问题,快速恢复业务。
云服务诊断体验评测火热进行中(截止2025.1.20),快来赢取索尼头戴耳机、小米背包吧,详见活动页面https://developer.aliyun.com/topic/cloud-health。
健康状态功能介绍
健康状态指云资源的可用性状态:不可用标记为 ,可用标记为 。云产品每一个可独立管理及运行的实例或服务统称为一个云资源,如ECS的每一个实例、OSS的每一个bucket。
云产品对云资源的运行状态进行监测,当因阿里云原因(如故障、计划内维护变更等)导致资源不可用时实时上报健康状态异常。
您可登录控制台,在控制台首页-运维监控页面查看您账户下的云资源健康状态(首次使用需免费开通)。您可查看实时状态以及最近2周内的历史状态。
点击「查看详情」,可跳转至健康状态详情页面,查看该资源每小时的健康状态,若有异常可查看异常的起止时间。点击资源ID可跳转至该资源控制台。
云资源健康状态异常,表示该云资源出现了故障而无法正常工作,且该故障往往只能由阿里云工程师进行修复(部分情况可通过重启实例进行修复)。一般情况下阿里云工程师会监测故障并主动修复,若未及时修复或影响到您的正常业务,请及时联系阿里云客服进行处理。
云资源健康状态正常,表示该云资源可用,即未发生必须由阿里云工程师进行修复的故障。若此时您的业务系统存在异常,可先排除阿里云云服务的原因,转而及时排查其它方面原因。可进一步检查配置是否正确、是否存在安全风险、是否高负载、是否超限、是否欠费等。您可通过诊断工具快速排查常见问题。
健康状态已覆盖29款常用云产品,更多云产品陆续上线中。点击查看产品覆盖清单。
诊断功能介绍
诊断指对一个或多个云资源某种工作状态(配置/功能/性能/连接/安全等)的检测分析,对异常进行详细描述并提供修复建议。
通过诊断工具,用户无需掌握过多的云产品知识,根据问题现象选择对应的诊断场景即可实时发起诊断,只需1-2分钟就能完成诊断。若诊断排查到异常,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。
相比逐个摸排整个系统、分析大量的日志、等待客服,用户通过诊断工具可更快定位问题和解决问题,缩短问题解决周期。同时诊断工具降低了用户的使用门槛,提升了用户体验。
您可登录控制台,在控制台首页-运维监控页面发起诊断。
根据问题现象选择诊断场景。支持分类筛选和关键词搜索。
选择要诊断的资源,开始诊断后,1-2分钟即可完成诊断。诊断完成可查看全部诊断项及诊断结果,若存在异常,可查看异常详情和修复建议。根据修复建议指引完成问题修复。点击「有帮助」、「没有帮助」反馈诊断效果,我们将认真听取并持续优化。
点击查看已覆盖诊断场景,更多诊断将陆续上线,敬请期待。
一键诊断功能邀测
为了方便用户使用,从2024年11月8日开始陆续开放「一键诊断」功能的邀测。「一键诊断」可一键为用户全方位诊断云上资源,免去用户逐个排查的烦恼。邀测期间可针对ECS资源进行一键诊断。欢迎加入钉钉交流群(群号:86570007290)获取邀测链接。
邀测用户在发起诊断时,默认选中一键诊断,也可切换至场景诊断。
系统展示当前账号下所有ECS实例,并默认选中第一页的实例,可根据需要调整待诊断的实例。邀测期间一次诊断最多选中20个ECS实例。
点击「开始诊断」启动一键诊断,可查看整体诊断进度以及每个实例的诊断进度,整个过程大概1-2分钟。
全部诊断完成后,可查看诊断结论。
若诊断发现异常,异常的ECS实例排在前列。点击箭头展开可查看异常详情和修复建议。可根据修复建议解决问题,若问题仍未解决可提交工单处理。
更多详情及使用帮助请参见云服务诊断帮助文档。
欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。