产品评测 | 欢迎来到大模型时代的操作系统管理平台

简介: 操作系统管理平台是一款专为提升Linux使用效率而设计的工具,提供运维管理、智能助手、扩展组件管理等功能,用户可通过该平台进行系统概览、诊断和观测,确保集群健康运行。安装简便,涵盖内存、存储、网络等多维度诊断,并生成详细报告。特别推荐给需要管理大量ECS资源的运维工程师,免费且功能强大。体验链接:https://alinux.console.aliyun.com/。

一、引言

我是一位开发运维工程师,日常工作主要本地涉及云资源的运维和管理。在日常工作中,无论是服务器的配置管理、故障排查,还是应用部署与性能调优,Linux系统都扮演着核心角色。因此,对于任何能够提升Linux使用效率和便捷性的工具,我都抱有极大的兴趣和期待。

二、产品介绍

操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。

主要功能特性如下:
image.png

三、产品开通与组件安装

1、登录操作系统控制台。然后开通服务。

image.png

需要先创建SysOM服务关联角色
image.png

创建完成后进入操作系统控制台。
image.png

2、安装管控组件和AI组件。

image.png

安装管控组件,我这里选择节点,点击执行。
image.png

image.png

执行成功。
image.png

同理安装AI组件。

两个组件都显示安装成功。
image.png

三、产品使用

1、系统概览

可以看到集群的健康分,健康指标,节点数量,CPU、内存、磁盘、网络的指标。我这里只有1个节点,不知道有多个节点的时候,CPU、内存、磁盘、网络显示的是总和还是平均值?

image.png

集群实时健康状态:

  1. 健康:该等级表明集群中存在亚健康状态实例,可关注具体节点健康状态。
  2. 亚健康:该等级表明集群存在亚健康或不健康实例,可关注具体节点健康状态。
  3. 不健康:该等级表明集群存在不健康或严重不健康实例,需要密切关注具体节点健康状态。
  4. 严重不健康:该等级表明集群存在较多严重不健康实例,需要马上查看具体节点健康状态。

集群健康指标:

  • 饱和度:饱和度用来衡量操作系统的承载能力,一般是操作系统相关资源的使用率。如常见的系统物理资源的使用率:内存使用率,CPU使用率、磁盘使用率;还有内核资源的使用率:如文件描述符使用率、inode使用率等。
  • 延迟:代表操作系统处理某个请求(任务调度、内存申请、IO、网络) 所需要的时间。
  • 负载:当前系统的数据流入流出的数据统计,用来衡量服务的承载能力,不同系统的流量有不同的含义,对于操作系统来说,流量可以指网络,io流量等。
  • 错误:当前操作系统发生错误请求或者发送错误事件的数量,通常为计数值;如系统发生OOM(Out of Memory)的次数,系统发生丢包事件的次数,系统发生夯机事件次数等。

下一行是历史健康详情,可以自定去检索历史的健康情况。包括异常事件分析、TOP10节点健康列表、健康分趋势、节点健康占比、节点问题占比。

image.png

点击可以进一步查看具体节点健康。
image.png

image.png

2、系统诊断

五大系统诊断类型:内存诊断、存储诊断、网络诊断、调度诊断、场景诊断。每个大项后面还有小项。
image.png

1)内存诊断->支持内存全景分析和OOM(Out of Memory)诊断,能够在实例级别进行诊断并生成相应的诊断报告。
image.png

会生成诊断报告。
image.png
image.png

2)存储诊断—>支持IO流量分析功能,具备实例级别的分析能力,能够在特定统计周期内对磁盘的IO流量进行分析并生成诊断报告。
image.png

会生成诊断报告。
image.png

IO流量分析报告。
image.png

3)网络诊断—> 支持丢包诊断功能,具备实例级别的诊断能力,并能够生成相应的诊断报告。
image.png

查看报告,一切正常。
image.png

4)调度诊断—>支持调度抖动诊断功能,具备实例级别的支持,能够在特定时长及抖动阈值下进行诊断。
image.png

查看报告。
image.png

5)场景诊断—>宕机诊断
image.png

查看报告,无宕机。
image.png

3、系统观测

1)进程热点追踪,用于单个实例在特定时刻的热点分析,支持生成进程热点时序图。

使用场景

  • 业务应用性能波动的场景。
  • 进程竞争,出现系统资源抢占。
  • 系统自身原因:
    1)在特定时刻,停止对高活跃度(热点)函数进行拦截或监控的钩子机制未能正常运作。
    2)—当系统内存紧张时,为了保证当前活跃程序的运行,操作系统频繁地进行换页操作。
    3)访问资源开销较大的sys接口、proc接口等。

image.png

函数表
image.png

图表结合
image.png

热点火焰图
image.png

调用图谱
image.png

支持检索
image.png

2)热点对比分析,用于单个实例在不同时刻、不同实例在同一或不同时刻进行热点对比分析。支持生成进程热点时序图、热点火焰图及调用图谱。

这里对比了单个实例在不同时刻的热点对比分析。给出了分析结论,这里有一键优化就好了,或者优化建议给具体的指导步骤或参考链接。
image.png

函数热点火焰图。
image.png

3)AI Infra观测,用于0侵入、灵活、低开销地观测AI作业。试了下没有GPU分析失败。

image.png

4、系统管理

系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。
image.png
可以查看实例系统状态及诊断信息。

image.png

5、组件管理

组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作。
image.png

image.png

查看组件详情。
image.png

卸载与更新。
image.png

6、订阅管理

订阅管理是操作系统所提供的相关服务的订阅功能。在订阅管理中,用户可以通过创建订阅来使用相应服务,并通过订阅历史记录查看详细信息。
Alibaba Cloud Linux 2延保和CentOS 7安全更新订阅使用。
image.png

7、OS Copilot 对话机器人

在页面右上角召唤出 OS Copilot 对话机器人。
image.png

问下它 AI Infra观察如何使用?

image.png

解释倒是正确,就是给的参考链接不对。
image.png

系统的内存占用过大了,应该怎么优化?
image.png

四、总结与建议

本次测评的操作系统服务套件以AI为核心引擎,提供了一站式的免费操作系统服务。该套件功能丰富且实用,界面设计简洁明了,操作便捷,用户体验良好。智能助手OS Copilot的加入更是为该系统增添了亮点,大大提高了工作效率。

下面是针对本次测试的一些问题和建议:

1、饱和度、延迟、负载、错误这四个指标如何来计算集群健康分的,有没有详细的说明文档。
image.png

2、这里的健康度和云服务诊断的健康状态,两者底层计算是一样的吗?若不同,哪个更有参考价值一点。

image.png

3、诊断都是近实时的,如何诊断历史时间的问题。比如某个过去的时间段有故障。

image.png

4、官方文档中没有及时更新,比如AI Infra观测、场景诊断都没有介绍。
image.png
image.png

image.png

5、希望生成的报告可以支持导出以及批量导出。

image.png
image.png

6、系统诊断中是否可以做一键诊断,把五类诊断都涵盖在里面。这样就不用自己每个都要执行一遍。
image.png

类似于云服务诊断里的一键诊断。
image.png

7、系统观测中的分析结果,有一键优化就好了,或者优化建议能给具体的指导步骤或参考链接。

image.png

8、系统管理是分地域的,若有好几个不同的地域ECS,无法在同一界面展示,这是是否能做成不分区域的。
image.png

9、希望和云监控中的报警规则联动,一旦节点处于不健康或者亚健康可以查看告警通知到管理员。
image.png

10、没有看到如何具体使用API、SDK、CLI等管理
image.png

整体来说,操作系统管理平台对于运维大量的ECS资源会提供很大的帮助,拥有了全局的视角,况且还是免费的。推荐更多的人来体验下,直达链接大模型时代的操作系统管理平台)。

相关文章
|
5天前
|
机器学习/深度学习 人工智能 云计算
Intel 平台新特性助力龙蜥 OS 云计算 | 龙蜥大讲堂101期
本次分享的主题是Intel平台新特性助力龙蜥OS云计算。内容涵盖英特尔第四代和第五代至强处理器的新特性,如性能提升、内置加速器等,并详细介绍TDX、SGX、AMX等技术原理及其在虚拟化环境中的支持情况,旨在帮助云用户充分利用英特尔新平台的优势。
|
3天前
|
弹性计算 运维 Linux
阿里云操作系统智能助手OS Copilot使用评测报告
作为一名运维工程师,我近期体验了阿里云的OS Copilot智能助手。安装过程顺利,支持Alibaba Cloud Linux系统。通过-t参数可快速进入agent模式,-f参数实现批量任务处理,管道功能解析复杂配置文件,显著提升效率约40%。总体而言,OS Copilot简化了Linux系统运维流程,适合工程师和开发者使用。建议继续增强功能及响应速度。 [了解更多](https://help.aliyun.com/zh/alinux/user-guide/instructions-for-os-copilot)
126 85
阿里云操作系统智能助手OS Copilot使用评测报告
|
3天前
|
人工智能 运维 监控
|
3天前
|
人工智能 运维 数据可视化
AI驱动操作系统服务评测报告
阿里云操作系统服务套件集成AI技术,提供集群健康、系统诊断、观测分析和OS Copilot等功能,助力高效管理。安装组件流程简便,系统观测与诊断功能强大,数据可视化效果佳,支持历史趋势分析。OS Copilot智能助手回答逻辑清晰,但部分问题需增强专业性。整体评价高,建议进一步优化错误提示、自动诊断及订阅服务记录,提升用户体验。
47 25
AI驱动操作系统服务评测报告
|
2天前
|
弹性计算 运维 自然语言处理
产品测评 | 感受操作系统智能助手OS Copilot新功能带来的运维效率飞升
近期,我再次评测了阿里云OS Copilot的新版本,发现其在命令执行、任务自动化、文件处理及知识问答等方面表现出色,特别是-t参数显著提升了70%的效率。使用过程中,我发现它不仅简化了复杂任务的处理,还提供了中文解释配置文件的功能,极大地方便了初学者。总结来看,OS Copilot极大地提升了Linux运维效率,但仍需在自然语言理解、用户界面优化和错误处理机制等方面进一步改进。未来若能支持更多操作系统并集成更多实用工具,必将成为Linux用户的得力助手。
|
1天前
|
人工智能 弹性计算 运维
操作系统智能助手OS Copilot新功能 评测
作为一名游戏开发工程师,我近期对阿里云Copilot进行了详细评测。Copilot支持多种Linux系统,具备完整的思维链推理能力,能处理复杂任务,大幅减轻运维工作量。它覆盖了大部分常用命令和参数,适合中高级运维工程师。虽然存在一些缺陷,但其在代码解读、错误分析等方面表现出色,极大提升了工作效率。强烈推荐有运维需求的用户使用Copilot,未来运维离不开它。 附上Copilot文档链接:[点击查看](https://help.aliyun.com/zh/alinux/user-guide/instructions-for-os-copilot)
45 26
|
6天前
|
人工智能 弹性计算 运维
OS Copilot评测报告
本文测评OS Copilot在云资源运维管理中的表现,基于阿里云ECS环境。该工具通过-t、-f和管道功能,将AI集成到运维场景中,简化了部分工作流程并提升了效率。特别是-t参数能自动执行命令并生成报告,但存在推理过程不透明、命令执行无记录等安全隐患。此外,文档对新手不够友好,复杂任务执行缺乏明确指引,输出结果冗长且不直观,影响用户体验。整体而言,虽有创新但需进一步优化以提升安全性和易用性。
103 22
|
2天前
|
人工智能 运维 监控
用操作系统控制台,让运维更简单!评测报告
我选择了一个实例进行诊断,系统迅速生成了详细的诊断报告。报告中不仅列出了潜在的问题,还提供了具体的解决建议。这对我快速定位和解决系统问题非常有帮助
|
3天前
|
弹性计算 运维
阿里云 OS Copilot 评测报告
作为一名运维工程师,我体验了OS Copilot的-t/-f/管道功能,整体感受是“非常棒,但距离真正的一句话运维还有距离,未来可期”。-t参数简化了系统健康度检查,直接给出结果,提升了效率。-f参数尝试批量执行任务文件中的命令,但遇到了权限问题。管道功能能解释配置文件参数,识别注释行,非常实用。建议增加示例任务库、优化错误处理和增强文档支持。
|
2天前
|
弹性计算 运维 Linux
OS Copilot 使用体验评测报告
OS Copilot 使用体验评测报告
13 3