云产品评测|云服务诊断 (两项功能诊断测评)

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 从阿里云官方了解到云服务诊断这个产品,作为一位云运维工程师,对这方面是比较持续关注的;本次基于产品的两个常见功能进行体验测试,整体感受下来的效率和体验感是很不错的,实用可靠,推荐使用!

简述:

我是一名云运维工程师,在日常工作中负责对各个业务系统的运维工作,包括服务ecs实例,监控告警,网络排查等;这次在阿里的社区了解到云服务诊断这个功能,与我的工作内容有很大的贴合性,就在官方文档的说明下,简单测试一下该功能的实用性,欢迎社区各位技术大牛一起讨论~~~


准备工作:

  1. 建议先了解下官方文档,在文档中可以先初步了解下云服务诊断这个功能的说明,简单的说就是知道他是干嘛的,然后才能为后面的操作奠定一个基础思路。

  官方文档地址:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics?spm=a2c6h.29849083.J_9175035460.6.7ffe34c81w0M07

  1. 申请一台阿里云账号,试用或者自主申请一台测试ecs服务器(可以自己随意操作),在服务器创建好后,操作前可以做一个快照备份,避免操作测试后想要恢复却没有备份!
  2. 了解首页的功能点的作用,选择想要诊断的项目;可以通过创建诊断任务,来观察检测各方面的状态。

  96d5b5c2bf3db512fbd655436ec17e1.png

 这个诊断的功能中有很多项目可以进行操作,选择自己想要尝试的或者常见的进行下模拟,这样和之前的感受可以做一个对比;这里我选了两种工作中比较常见的项目进行诊断!

5d81578e72e406117c1eed6be4b0b4e.png

  • --Ecs远程无法访问诊断--

首先我找了一台测试服务器把网卡down掉后(也可以使用防火墙/iptables配置阻止规则模拟),导致的结果是这台服务器现在是无法访问的,这种无法远程的场景在日     常工作中比较常见(例如机器重启后网卡配置文件识别有问题,就会导致网卡起不来),然后我就使用了检测平台的诊断功能;

查看当前机器网卡名称

ip a

关掉网卡

ip link set down 网卡名称

101b79948b21c51f303fac596539eb5.png


下面是诊断结果:

2dc56919c9278f7c4ed639ff509e18e.png

a311af8c763910c392d7af5ae1dfd85.png


整个诊断下来的过程是很快速的,在时间的反馈上很及时;诊断下来后给了我两个结果提供了一定的解决思路,包括检测内网连通性和云上安全组配置,dns配置的排查步骤,但是与我实际发生的情况还是有一定出入的,希望在这可以补充常见基于实例本身的排查思路,以及一些常见问题的解决方法!

总体来说这输出的解决思路适用的范围比较广泛,该故障诊断给的参考性是比较好的;如果要逐一细心排查,希望补充一部分不限于平台上网络安全产品的排查思路作为参考。

  • --Ecs实例负载高诊断--

服务器:测试ecs

模拟工具: stress

操作步骤:

更新最新yum库:

yum update -y

    安装模拟测试软件:

yum install stress -y

创建cpu模拟:

stress --cpu $(nproc) --timeout 300s

创建内存模拟:

stress --vm 1 --vm-bytes 1024M --timeout 300s

下面我们来看诊断结果

cab675a2cba8bfd3bd4c70f2f9a4564.png


在执行命令后,机器的负载已经开始到达高水位,进行诊断操作从开始到结束很快速,准确的定位到了问题的点,这一点给使用者一个很好的反馈;可以根据结果对后面的信息进行详情查看。


14cd46b360100bd0801bb7a1e79a557.png


本次模拟测试我只使用了一台服务器,这样看下来效率提升不是很直观,因为直接就可以在实例控制台就能看见;但如果是一个大的生产环境,涉及多套业务系统,几十台或者上百台服务器,那这个监控诊断给的效率可以说是大大提高!


最后来看一下我的服务器整个健康状态:

7d95aa63b42fd154a8fda06b9b8951b.png


每个记录都很详细,可以准确的看出来我的服务问题的点,简洁方便。

总体来说,这个云服务诊断的功能是很不错的,在日常工作运维中可以提供不少的帮助和参考内容~~~

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1天前
|
弹性计算 运维 监控
云产品评测 云服务诊断
作为一名开发工程师,我负责云资源的运维和管理。通过健康状态和诊断功能,可实时监控云资源(如ECS、网站等)的运行情况,快速排查并解决诸如访问异常、配置错误、安全风险等问题。诊断工具简化了问题定位流程,提供详细的修复建议,帮助用户在1-2分钟内完成诊断,迅速恢复业务。健康状态页面展示各实例的每小时健康数据,支持查看15天内的历史记录,极大提升了问题排查效率。
127 98
|
20天前
|
域名解析 弹性计算 Kubernetes
老周的云服务诊断测评
作为一名后端研发工程师,我体验了阿里云的云服务诊断工具,该工具涵盖计算、网络、数据库等多种诊断场景,提供针对性的诊断流程和实时健康状态反馈。然而,针对私有云和多云环境的支持仍有提升空间,建议增加主备域名实时切换、多云支持及更全面的应用健康检查功能。
124 71
|
8天前
|
存储 弹性计算 运维
云服务诊断体验测评
一文带你了解云服务诊断产品的优与劣
75 38
|
7天前
|
弹性计算 运维 监控
【阿里云云服务诊断】调研报告
作为一名资深后端工程师,我调研了阿里云的【云服务诊断】工具。该工具主要提供两大核心功能:健康状态检查和实时诊断。 1. **健康状态检查**:可查看云资源的可用性状态,快速排除云服务异常,帮助用户聚焦其他潜在问题。 2. **实时诊断**:针对网站无法访问、ECS故障、配置错误等常见问题进行检测,并提供修复建议,极大提升问题排查效率。 使用体验良好,建议增加自定义检查项以提升运维基本功。总体而言,这是个高效实用的工具,值得推荐给开发者和企业用户。
31 3
【阿里云云服务诊断】调研报告
|
8天前
|
弹性计算 运维 监控
云服务诊断测评报告
作为一名开发工程师,我日常负责云资源的运维与管理,尤其注重监控核心云资源状态以规避风险 通过云服务诊断涵盖健康状态和诊断两大核心功能能够有效提升我们的工作效率
|
27天前
|
弹性计算 运维 监控
云服务诊断功能评测报告
云服务诊断功能评测报告
36 3
云服务诊断功能评测报告
|
28天前
|
弹性计算 安全 开发者
云服务诊断评测体验
云服务诊断评测体验
37 8
云服务诊断评测体验
|
20小时前
|
弹性计算 安全 程序员
云服务诊断真实使用评测
云服务诊断真实使用评测
|
14天前
|
存储 弹性计算 运维
云服务诊断评测
作为一名运维工程师,我日常负责云资源的运维与管理。阿里云提供的健康状态和诊断功能非常实用且免费,覆盖了存储和网络等更多资源,显示在工作台首页,方便查看。通过这些功能,我能实时了解ECS实例的健康状态,快速定位并解决问题,避免服务中断,显著提高工作效率。特别是在一次针对磁盘I/O瓶颈的诊断中,优化了系统性能。建议增加问题解决办法、丰富报警策略及提供更多业务场景的诊断模板,以进一步提升用户体验。
40 2
|
27天前
|
弹性计算 运维 监控
阿里云云服务诊断功能评测
阿里云云服务诊断功能评测
44 11
下一篇
开通oss服务