一、引言
我是一位开发运维工程师,日常工作主要本地涉及云资源的运维和管理。在日常工作中,无论是服务器的配置管理、故障排查,还是应用部署与性能调优,Linux系统都扮演着核心角色。因此,对于任何能够提升Linux使用效率和便捷性的工具,我都抱有极大的兴趣和期待。
二、产品介绍
操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。
主要功能特性如下:
三、产品开通与组件安装
1、登录操作系统控制台。然后开通服务。
需要先创建SysOM服务关联角色
创建完成后进入操作系统控制台。
2、安装管控组件和AI组件。
安装管控组件,我这里选择节点,点击执行。
执行成功。
同理安装AI组件。
两个组件都显示安装成功。
三、产品使用
1、系统概览
可以看到集群的健康分,健康指标,节点数量,CPU、内存、磁盘、网络的指标。我这里只有1个节点,不知道有多个节点的时候,CPU、内存、磁盘、网络显示的是总和还是平均值?
集群实时健康状态:
- 健康:该等级表明集群中存在亚健康状态实例,可关注具体节点健康状态。
- 亚健康:该等级表明集群存在亚健康或不健康实例,可关注具体节点健康状态。
- 不健康:该等级表明集群存在不健康或严重不健康实例,需要密切关注具体节点健康状态。
- 严重不健康:该等级表明集群存在较多严重不健康实例,需要马上查看具体节点健康状态。
集群健康指标:
- 饱和度:饱和度用来衡量操作系统的承载能力,一般是操作系统相关资源的使用率。如常见的系统物理资源的使用率:内存使用率,CPU使用率、磁盘使用率;还有内核资源的使用率:如文件描述符使用率、inode使用率等。
- 延迟:代表操作系统处理某个请求(任务调度、内存申请、IO、网络) 所需要的时间。
- 负载:当前系统的数据流入流出的数据统计,用来衡量服务的承载能力,不同系统的流量有不同的含义,对于操作系统来说,流量可以指网络,io流量等。
- 错误:当前操作系统发生错误请求或者发送错误事件的数量,通常为计数值;如系统发生OOM(Out of Memory)的次数,系统发生丢包事件的次数,系统发生夯机事件次数等。
下一行是历史健康详情,可以自定去检索历史的健康情况。包括异常事件分析、TOP10节点健康列表、健康分趋势、节点健康占比、节点问题占比。
点击可以进一步查看具体节点健康。
2、系统诊断
五大系统诊断类型:内存诊断、存储诊断、网络诊断、调度诊断、场景诊断。每个大项后面还有小项。
1)内存诊断->支持内存全景分析和OOM(Out of Memory)诊断,能够在实例级别进行诊断并生成相应的诊断报告。
会生成诊断报告。
2)存储诊断—>支持IO流量分析功能,具备实例级别的分析能力,能够在特定统计周期内对磁盘的IO流量进行分析并生成诊断报告。
会生成诊断报告。
IO流量分析报告。
3)网络诊断—> 支持丢包诊断功能,具备实例级别的诊断能力,并能够生成相应的诊断报告。
查看报告,一切正常。
4)调度诊断—>支持调度抖动诊断功能,具备实例级别的支持,能够在特定时长及抖动阈值下进行诊断。
查看报告。
5)场景诊断—>宕机诊断
查看报告,无宕机。
3、系统观测
1)进程热点追踪,用于单个实例在特定时刻的热点分析,支持生成进程热点时序图。
使用场景
- 业务应用性能波动的场景。
- 进程竞争,出现系统资源抢占。
- 系统自身原因:
1)在特定时刻,停止对高活跃度(热点)函数进行拦截或监控的钩子机制未能正常运作。
2)—当系统内存紧张时,为了保证当前活跃程序的运行,操作系统频繁地进行换页操作。
3)访问资源开销较大的sys接口、proc接口等。
函数表
图表结合
热点火焰图
调用图谱
支持检索
2)热点对比分析,用于单个实例在不同时刻、不同实例在同一或不同时刻进行热点对比分析。支持生成进程热点时序图、热点火焰图及调用图谱。
这里对比了单个实例在不同时刻的热点对比分析。给出了分析结论,这里有一键优化就好了,或者优化建议给具体的指导步骤或参考链接。
函数热点火焰图。
3)AI Infra观测,用于0侵入、灵活、低开销地观测AI作业。试了下没有GPU分析失败。
4、系统管理
系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。
可以查看实例系统状态及诊断信息。
5、组件管理
组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作。
查看组件详情。
卸载与更新。
6、订阅管理
订阅管理是操作系统所提供的相关服务的订阅功能。在订阅管理中,用户可以通过创建订阅来使用相应服务,并通过订阅历史记录查看详细信息。
Alibaba Cloud Linux 2延保和CentOS 7安全更新订阅使用。
7、OS Copilot 对话机器人
在页面右上角召唤出 OS Copilot 对话机器人。
问下它 AI Infra观察如何使用?
解释倒是正确,就是给的参考链接不对。
系统的内存占用过大了,应该怎么优化?
四、总结与建议
本次测评的操作系统服务套件以AI为核心引擎,提供了一站式的免费操作系统服务。该套件功能丰富且实用,界面设计简洁明了,操作便捷,用户体验良好。智能助手OS Copilot的加入更是为该系统增添了亮点,大大提高了工作效率。
下面是针对本次测试的一些问题和建议:
1、饱和度、延迟、负载、错误这四个指标如何来计算集群健康分的,有没有详细的说明文档。
2、这里的健康度和云服务诊断的健康状态,两者底层计算是一样的吗?若不同,哪个更有参考价值一点。
3、诊断都是近实时的,如何诊断历史时间的问题。比如某个过去的时间段有故障。
4、官方文档中没有及时更新,比如AI Infra观测、场景诊断都没有介绍。
5、希望生成的报告可以支持导出以及批量导出。
6、系统诊断中是否可以做一键诊断,把五类诊断都涵盖在里面。这样就不用自己每个都要执行一遍。
类似于云服务诊断里的一键诊断。
7、系统观测中的分析结果,有一键优化就好了,或者优化建议能给具体的指导步骤或参考链接。
8、系统管理是分地域的,若有好几个不同的地域ECS,无法在同一界面展示,这是是否能做成不分区域的。
9、希望和云监控中的报警规则联动,一旦节点处于不健康或者亚健康可以查看告警通知到管理员。
10、没有看到如何具体使用API、SDK、CLI等管理