引言
这段时间的产品测评又由开发类慢慢的转向运维类了,从上一篇的OS Copilot新功能到这里的OS控制台,我们也是见证着阿里云在提升用户体验和简化操作流程方面的不懈努力。对于我们运维人员来说,最大的关键就是如何提高效率,而阿里云OS控制台其实就是为此量身定制的一把“瑞士军刀”。
可能有的人会怀疑,为啥我之前写OS Copilot时,也把它吹的很厉害,到这里又开始吹OS控制台。
其实,上述两个产品侧重点是不一样的,OS Copilot更倾向于是一种通用工具,而阿里云OS控制台则是针对于阿里云使用者的运维专属工具!
这里我也放上之前写的运维类产品实战测评文章,麻烦感兴趣的朋友帮忙点个赞~
解锁高效运维新姿势!操作系统智能助手OS Copilot新功能实战测评
操作系统控制台
一句话概括就是,操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能,支持通过API、SDK、CLI等管理方式。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。
流程体验
登录操作系统控制台
点击https://alinux.console.aliyun.com/ ,进入操作系统控制台,首次登录需要点击开通。
点击创建SysOM服务关联角色。
创建完成后进入控制台界面如下:
纳管已有服务器
在左侧导航栏,单击组件管理,看到上面提示为“您账号下没有被纳管的集群/节点,请参考“组件管理”对集群/节点进行纳管”,先点击安装SysOM。
选择需要被纳管的服务器,点击执行。
执行完成后结果如下所示:
同样,我们执行安装AI组件OS Copilot。
执行完成后如图所示:
系统概览
回到系统概览,我们可以查看该ECS的健康数据情况。这里主要是通过关键监控指标,整体反映一个集群、节点或容器的健康状态,帮助使用者在掌握整体健康状况的基础上,进一步分析影响系统健康的因素。
系统诊断
这一块其实和之前的阿里云云服务诊断功能极其相似,都是对ECS进行故障排错使用的。
系统诊断主要分为五大场景,分别是:内存诊断、存储诊断、网络诊断、调度诊断、场景诊断。
下面以内存诊断为例,简要介绍如何使用系统诊断功能进行排错。
在内存诊断中,诊断项主要包括内存全景分析、OOM诊断这两个,选择好诊断项之后,选择对应的实例ID,点击执行诊断即可。
内存全景分析功能针对的是那些内存占用较高却难以确定具体是哪些进程或应用导致这种情况的场景。利用这一诊断工具,可以全面扫描系统当前的内存使用状况,并深入解析内存消耗的细节,从而提供详细的内存使用情况拆解。
OOM(Out Of Memory)内存诊断功能能够分析和确定操作系统发生内存不足(Out Of Memory)事件的原因。通过这一工具,可以深入了解是什么因素或进程导致了系统内存耗尽的情况,从而帮助管理员识别问题的根源并采取相应的措施来预防未来的OOM事件。
其他场景下诊断方法相似,故不过多赘述。
OS Copilot
在阿里云OS控制台的侧边栏,也是集成了开头提到的OS Copilot工具,我们点击这个小logo即可唤起。
给出提问如下:“我系统的内存占用过大了,应该怎么优化?”
OS Copilot工具给出的回答也是非常简洁且准确,并且也通过RAG,给出了推荐的诊断方式:
要优化系统内存占用,首先需要识别哪些进程占用了大量内存。你可以通过执行以下命令来查找高内存使用率的进程:
top
按M键根据内存使用排序,并分析是否有异常或可优化的进程。如果存在不必要的服务或程序,考虑停止它们以释放内存。
对于长期运行的应用,检查是否存在内存泄漏,并确保配置合理。此外,调整应用程序的内存使用参数也可能有所帮助。
若经过优化后内存仍然不足,建议升级实例规格以增加可用内存。具体操作可以参考官方文档修改实例规格。
请点击跳转至专业诊断工具页面:
内存全景分析 ⭐️ ⭐️ ⭐️ ⭐️ ⭐️
这种情况下我们可以点赞来帮他确定答案的准确性,给模型一个正向反馈。
订阅管理
订阅是指在阿里云ECS实例上访问阿里云私有yum仓库的权限。通过订阅管理功能,您可以查看ECS实例当前的订阅状态,并根据业务需求为ECS实例创建订阅项,从而获取访问私有yum仓库的权限。
假如说有使用对应操作系统的ECS的话,就会显示在对应下面,此时点击下一步。
依赖检查通过后,点击创建即可。
评测报告
我是一位安全运维工程师,其实大家也可以看到,这几次运维类产品的测评我也都有在参加,不得不说,每一次测评完后都会有新的理解,目前的感觉就是阿里云的整个生态链中关于运维这一块的产品已经形成了一个内部小生态体系。
从最开始的云诊断➡OS Copilot➡OS控制台,这个发展路径清晰地展示了阿里云如何逐步构建起一套完整的运维解决方案。云诊断工具帮助我们快速定位问题,提供了基础的健康检查和故障排查能力;随着OS Copilot的推出,阿里云进一步加强了自动化和智能化的支持,为开发和运维团队提供了更为便捷的协作平台;而最新的OS控制台,则将这些功能整合起来,并添加了更多针对性强、专业度高的运维特性,使得整个运维流程更加流畅高效。
上述的实操流程也是都展示了,整体体验是没有问题的,这里也不多赘述了,聚焦下来就说说几个使用问题吧。
健康度
这个东西怎么说呢,很难评价。。。要说有用确实是有用,直观、方便,可以帮助运维团队的管理者快速决策,或者帮助运维人员快速了解整体宏观状态,这是很好的;但是说不好的地方是因为这个判定的方法和标准还是太固定或者太机械了。
我举个简单的例子,有的服务器因为成本限制,硬盘只能开启较少的空间预警阈值。在这样的情况下,虽然服务器的实际运行状况可能完全正常,并未影响服务性能或数据完整性,但健康度检查工具可能会因为它接近设定的存储警戒线而频繁触发警告。这种过于严格的评判标准不仅会导致不必要的告警噪音,还可能误导运维人员将资源浪费在处理所谓的“问题”上,而非真正需要关注的关键领域。
而且,不同业务场景对服务器的要求也各不相同。
理想情况下,健康度评估系统应该能够支持自定义规则配置,允许用户根据实际业务逻辑调整评分机制,以确保其结果既准确又具有指导意义。
系统诊断
我们的诊断对象其实准确来说是有两种,单个服务器或者其中的pod(k8s内部的节点),但是即便我没有pod,此处依然会默认显示有pod选项,并且无法选择、无法点击,也不知道是否需要填写。
这里建议在上面的问号处添加一个说明:如需检查k8s内部节点状态,请选择此处,如不需,可直接开始执行诊断服务器内存状态。
系统诊断报告无法导出
虽然目前是提倡无纸化办公,但是在某些地方(比如我们这),给主管或者领导汇报时仍然还是需要拿着打印的纸质材料去汇报的,所以,系统诊断报告只能查看,不能直接导出成PDF就是很难受的。
AI Infra观测
这里不是想说这个功能有什么不足,只是想单独拎出来表扬一下,现在大家使用云GPU服务器的占比其实是越来越多了,AI Infra观测功能正是在这样的背景下应运而生,并且做得非常出色。它不仅提供了对GPU资源使用情况的精细监控,还能深入到每个训练任务的具体性能指标,如显存占用、CUDA核心利用率等。
AI组件
目前,这边的AI组件仍然还是写的只支持x86_64架构的。
但是其实对于这个产品的话,已经能支持ARM架构了,所以建议此处在文字方面同步更新一下。
建议新增安全检测
今年年末的时候,出过一个服务器安全体检的活动我还历历在目,其实可以考虑将这部分的结果作为一个功能集成到OS控制台中,只用统计操作系统自身的漏洞就可以了,这样会比较方便。
建议集成到移动端
目前我在AliyunAPP上没有找到这个OS控制台,如果确实没有集成的话还是建议可以做进去,这个比ECS控制台会更适合管理者查看。
总结
通篇文章下来我们可以看到,阿里云的运维类产品已经形成了一个内部小生态体系,从快速问题定位到自动化支持,再到专业度高的运维特性整合,显著提升了操作效率和系统稳定性。然而,在健康度评估、系统诊断用户体验、报告导出功能以及移动端集成等方面仍有优化空间。未来,通过引入更灵活的自定义规则、增强用户交互设计、增加报告导出选项,并考虑将安全检测和OS控制台功能集成至移动端,将进一步提升用户体验和产品的全面性。这不仅有助于解决现有痛点,也能更好地满足用户日益增长的需求。
好用!爱用!推荐用!控制台直达链接:https://alinux.console.aliyun.com/