前言
说起系统运维,对于大多数的运维人员来说,可能展现在脑海中的还是黑色的背景框,一行一行的命令行执行这样的场景,比如你想要查询系统信息,或者你想要查看磁盘信息,或者是cpu信息,你需要通过手工输入命令的方式来实现具体的操作,就像这样
这样的命令行操作形式对于运维人员的要求是比较高的,需要运维人员精通Linux命令,同时可以看到命令执行后的返回内容。但是随着AI 人工智能技术的飞速发展,操作系统智能助手OS Copilot 惊艳亮相。操作系统智能助手OS Copilot 融合了大语言模型对自然语言的天然高效理解能力,并借助操作系统团队的深厚历史经验进行精细调整。它提供自然语言问答、辅助命令执行、系统运维调优等多重功能,旨在为Linux用户在学习和运维等多个领域带来专业、高效且智能的全新体验。简单的说就是你可以通过自然语言问答的形式 来对Linux操作系统进行命令行的日常使用和维护等操作,也就是说即便你没有精通 Linux 命令,你也可以操作系统,进行运维操作了。操作的结果就像这样
具体的操作感兴趣的小伙伴可以参考我的另一篇测评:https://developer.aliyun.com/article/1650293 里面有详细的操作记录可以参考。
看到这里是不是觉得 操作系统智能助手OS Copilot 已经很牛气了,不不不,还有更牛气的。【操作系统控制台】,一款可以通过可视化页面管理操作系统,降低使用复杂度的一款运维神器。
操作系统控制台
在详细介绍操作系统控制台操作之前,先来了解一下什么是操作系统控制台?
操作系统控制台提供了操作系统相关的管理功能,包括系统概览、系统诊断、系统观测、系统管理、组件管理、订阅管理、OS Copilot等功能特性,通过可视化页面管理操作系统,降低使用复杂度;同时通过可视化页面进行操作,可有效分析问题,无需依赖众多工具;另外可替代操作系统专业人员,分析问题并提供专业指导意见。关于操作系统控制台的更多详细内容可以参考官方文档:https://help.aliyun.com/zh/alinux/product-overview/what-is-the-operating-system-console
开通服务
如果你还没有开通操作系统控制台服务,那么你需要先开通服务,登录操作系统控制台:https://alinux.console.aliyun.com/ 勾选协议点击【开通服务】
如果你的账号还没有授权,那么会弹出弹框 【SysOM】服务关联角色,点击【创建角色】完成服务授权。
操作系统控制台服务开通成功之后,需要先安装组件。
组件管理
组件管理是负责操作系统扩展组件的模块,能够对被纳管的实例进行相关组件的安装、升级和卸载等操作,在操作系统控制台首页点击【组件管理】选择安装 组件 SysOM 和 AI组件 OS Copilot
这里需要说明一下:在安装组件之前,需要你先拥有云服务器ECS实例,如果没有对应的云服务器ECS实例的话,你需要先购买云服务器ECS实例之后再来安装组件,没有云服务器ECS实例的安装页面如下
另外还需要提醒一下:对于云服务器ECS实例的镜像需要为Alibaba Cloud Linux、CentOS、Ubuntu或Anolis OS中的操作系统的特定版本,具体的版本支持信息可以查看文档:https://help.aliyun.com/zh/alinux/getting-started/using-the-operating-system-console
再回到安装组件的页面,点击 SysOM 的安装,在安装执行页面选择我们需要管理的云服务器ECS实例,点击【执行】等待SysOM组件 安装成功
等待 SysOM 组件安装成功后,可以看到如下弹框提示
同样的操作方法完成 OS Copilot 组件的安装,安装成功后回到【组件管理】菜单页,可以看到组件安装信息
系统概览
系统概览展示被纳管的集群、实例的健康状态,及相关的异常。我们可以在系统概览页面看到我们集群(当前主账号)的实时健康分及资源数据
下拉也可以看到我们集群的历史健康详情信息,你可以通过时间选择器选择对应的时间,历史健康详情框中展示集群历史(过往某段时间)的健康及异常情况。同时通过异常事件分析面板展示了所有影响集群/实例健康状况的异常检查项。
如果有异常信息,可以通过操作列表中单击【查看诊断报告】按钮查看报告
TOP 10节点健康列表面板展示了集群中按照健康评分从低到高排序的最低评分的10个实例信息。单击操作列的【节点健康】,将跳转至相应实例的健康度页面。
健康分趋势可以通过时间选择器显示的时间区间,查看总体健康分及四种类型指标健康分的历史情况,从而有效定位集群中历史发生的健康问题。
系统诊断
系统诊断是针对系统问题进行的诊断功能,涵盖内存、存储、网络、调度等多种诊断类型。我们可以通过发起相关的系统诊断,获取诊断报告,以说明是否存在相应类别的问题以及问题的原因。点击【系统诊断】菜单,在系统诊断页面选择【诊断类型】、【诊断项】、【实例ID】后点击【执行诊断】等待云服务器ECS【内存全景分析】诊断结果
同样的方法,你也可以切换【诊断类型】、【诊断项】来获取不同诊断内容的返回结果
等待诊断结束之后,可以点击操作列的【查看报告】查看当前诊断云服务器ECS的内存相关信息,在报告顶部会给出一个【诊断结论】以及诊断后有问题的话会有一个【诊断建议】
下滑可以看到具体的内存占用分析
以及 应用内存使用排序 ,这里可以分页查询,通过切换分页按钮来查询每页内容,目前不支持任务名称搜索功能
继续往下可以看到 文件缓存占用排序 ,同样支持分页查询不同文件的文件缓存占用情况,暂时不支持文件名称搜索
OS Copilot
前面我们提到操作系统助手 OS Copilot ,那么在操作系统控制台,我们同样是可以使用 OS Copilot 的,前提是你在组件管理操作步骤里面安装了 OS Copilot 组件哦。在操作系统控制台,点击右侧箭头【<】
在展开的右边侧边栏选择 OS Copilot
在 OS Copilot 对话框页面选择默认的问题 【OS Copilot能为我做什么?】
再来个应用系统可能会遇到的OOM 相关问题 【应用系统的内存占用过大了,出现了OOM,应该怎么优化?】询问 OS Copilot ,这里 OS Copilot 会根据提出的问题提出具体的优化方案,你可以根据具体的场景选择不同的方案,
同时,在问题结束页面还给出了专业诊断工具页面的跳转链接,点击【OOM诊断】链接则会跳转到我们的操作系统控制台【系统诊断】页面,同时已经补充了具体的 【诊断类型】、【诊断项】,但是这里需要注意的是,默认是【杭州】地域,而我通过操作系统控制台管理的是【北京】地域的云服务器ECS,因此需要切换地域,选择实例ID,诊断时间
考虑到 OS Copilot 针对我提出的应用系统OOM如何优化的建议比较中肯,这里点个小赞鼓励鼓励,也算为操作系统智能助手 OS Copilot 给个肯定。
系统观测
系统观测支持以下三种场景,不同的场景对应不同的功能。
进程热点追踪用于单个节点在某一时段的热点分析,并生成进程的调用图谱,帮助开发人员快速识别应用程序中的性能瓶颈和热点问题。
热点对比分析,在应用性能波动等因素导致系统指标异常的情况下,通过热点对比时序图和差分火焰图的方式,协助用户识别实例中相同或不同进程在时间维度上的热点差异。
AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。
系统管理
系统管理展示了操作系统控制台中实例的纳管状态及其他相关信息。仅纳管的实例才能使用操作系统控制台的相关功能。在系统管理页面可以看到我们已经纳入操作系统控制台管理的实例
订阅管理
订阅是指在阿里云ECS实例上访问阿里云私有yum仓库的权限。通过订阅管理功能,你可以查看ECS实例当前的订阅状态,并根据业务需求为ECS实例创建订阅项,从而获取访问私有yum仓库的权限。在【订阅管理】页面点击【创建订阅】
在购买ECS实例时,镜像版本不为CentOS 7.9系列,创建订阅时实例列表将不显示。这里由于我的云服务器ECS的操作系统是 Alibaba Cloud Linux 3.2104 LTS 64位 因此需要更换操作系统,在云服务器ECS控制台,点击实例ID 进入实例详情,点击操作系统后的【更换】
在更换操作系统之前需要先停止云服务器ECS实例,勾选协议,点击【继续更换操作系统】
在更换操作系统页面选择 CentOS 7.9系列,设置服务器自定义密码后,勾选协议,点击【确认订单】
等待云服务器ECS 操作系统更改成功之后,回到操作系统控制台 的【订阅管理】,点击【创建订阅】在创建订阅页面就可以看到我们的云服务器ECS了
勾选云服务器ECS实例后点击【下一步】,勾选服务协议,点击【创建】完成订阅的创建
完成订阅创建之后,即可使用 yum/dnf 命令访问对应的 yum 仓库,通过命令查看已添加的 yum 仓库
yum repolist
查看结果如图
订阅完成后,系统并不会自动进行漏洞修复和软件包更新,这些操作需要您手动完成。比如运行以下命令,查询当前全部可用的安全更新信息
yum updateinfo
运行以下命令,查询当前可用的安全更新列表
yum updateinfo list
运行以下命令,查询指定安全更新的内容
yum updateinfo info ANSA-2024:0905
运行以下命令,指定安全更新级别进行查询
yum updateinfo list --sec-severity=Moderate
关于yum更多的安全更新操作可以 参见基于YUM的安全更新操作 。
到这里,关于操作系统控制台的全部功能我都已经带大家体验一遍了,后面有需要的可以直接参考我的文章操作即可,操作不复杂,功能设计也比较容易理解,非运维人员一样可以看明白。
体验总结
我是一位 -开发工程师-,我平时工作 涉及 云资源的运维和管理。我使用的是 CentOS 7 系列 操作系统。
我 顺利使用了 操作系统控制台 的 基本上全部 功能,
我认为系统概览 功能 有用 ,可以很直观的看到当前云服务器ECS的状态,解决了 只能通过命令行来查看 ECS 状态的问题,大大提升了运维人员关注云服务器ECS 状态的时间投入,过去需要登录服务器,通过命令来查看,现在只需要一眼即可
我认为 系统诊断 功能 有用 ,可以直接在可视化页面实时诊断云服务器ECS的详细状态,通过切换具体的诊断类型,以及诊断项等内容,快速获取关注的状态,在诊断列表也可以通过【查看报告】看到具体的【诊断结论】及【诊断建议】方便运维人员快速处理
目前对EOL的操作系统比较担心,希望订阅功能能够帮我及时的获取系统更新信息,从而保证系统的稳定运行。
此外,我还有一些建议,下面具体说说。
入口在哪儿?
在测评操作过程中,一直是通过操作系统控制台的文档中的入口链接进入的,而实际在使用云服务器ECS资源或者其他云产品资源时,往往更习惯通过控制台首页【搜索】功能来搜索具体的云产品进入控制台,比如 ECS
而目前通过控制台首页【搜索】操作系统控制台 则没办法找到 操作系统控制台 的入口,只能通过点击下面搜索到的帮助文档里面的跳转链接点进去
组件待补充
对于目前的操作系统控制台来说,组件只有两个可以选择,那么后期可以适当考虑增加监测云服务器ECS上部署的应用程序服务的组件,比如通过安装应用检测组件,可以检测到服务器ECS里面具体的应用程序(tomcat、nginx、mysql、redis 等)服务的状态展示在系统概览页面,方面可视化的检测应用程序的状态。目前的操作系统控制台的相关系统概览、系统诊断等主要是关注的云产品自身状态,而没有云产品上应用程序的状态信息
系统观测-热点类型?
在进行系统观测 进程热点追踪、热点对比分析时会有一个【热点类型】为必选项,但是这里并没有 热点类型 的配置页面,那么这个热点究竟是怎么来的,有时候没有,就像这样
有时候会有,可选项为【ONCPU】,就像下图的可选项地方,这就比较疑惑,不知道这个【热点类型】具体指什么
另外在官方文档中,关于【热点类型】并没有提及,并且官方文档截图中也没有【热点类型】这个选项
热点对比分析也是同样的道理,【热点类型】为必选项,但是却不知到值从何来,昨天在体验过程中有的一个热点类型【ONCPU】的值甚至不知道怎么来的
订阅管理
对于订阅管理,我理解是主要为了 对EOL的操作系统 进行一个使用,那么这里就希望在【订阅管理】菜单,或者是在【创建订阅】的页面展示一个说明
我第一次纳入管理的是一个操作系统为 Alibaba Cloud Linux 3.2104 LTS 64位 的云服务器ECS,在创建订阅时一直没有加载,后来查阅文档才发现只对EOL的操作系统 可以使用
在订阅管理的文档中提到系统不会自动进行漏洞修复和软件包更新,需要手动完成,那么这个订阅管理具体是提供了什么服务?并没有一个系统yum 更新的通知提醒功能,也没有一个系统更新后的自动更新功能,那么这个【订阅管理】究竟是订阅了什么,比较不理解。或者说是否有一个邮件提醒功能,当 yum 更新时,自动发送给主账户一个 邮件,列出来 yum 更新哪些内容等,就更好了。
最后,还是很感谢开发团队的不断探索,使得过去只能专业运维人员操作的服务器,非专业人员也可以通过 OS Copilot 自主化关注服务器相关参数了。操作系统控制台的出现,进一步提供了一个可视化运维服务器的操作界面,真的实现了运维人员点点点就能管理服务器的理想,方便快捷,给操作系统控制台开发团队一个大大的赞,你们的探索---值得!
附上 控制台直达链接:https://alinux.console.aliyun.com/