从 API 到 AI Agent:阿里云云监控 CLI + Agent Skill 实战

简介: 阿里云推出云监控CLI与Agent Skill,将运维能力转化为AI可执行工作流。用户通过自然语言指令,即可由Agent自动完成资源接入、告警管理及数据查询等任务,实现可控、可审计的智能化运维自动化。

作者:陈廷彬(颍川)


使用云监控官方 CLI + Agent Skill,让 AI Agent 安全执行可观测运维任务。


30 秒读懂

阿里云云监控 CLI(aliyun cms2)把 CMS(Cloud Monitor Service)2.0 控制台中的接入、配置、查询、告警、事件等能力统一沉淀为命令行入口;CMS Agent Skill 则把这些命令组织成面向 AI Agent 的业务工作流。


过去,运维自动化往往从 API 开始:查文档、拼参数、写脚本、调接口;现在,通过云监控 CLI + Agent Skill,这些能力可以被组织成 AI Agent 可理解、可执行、可校验的标准化工作流。


对运维人员来说,它的价值不是“多一个工具”,而是让你用自然语言描述运维目标,由 AI Agent 完成场景理解、CLI 调用、API 执行和结果校验,将重复、多步骤、易出错的可观测运维操作变成可确认、可审计、可复用的自动化流程。

为什么需要 CLI+Agent Skill

随着云上业务规模和基础设施持续增长,可观测运维贯穿了资源接入、指标/日志采集、告警治理、链路排查、根因分析和稳定性运营的全流程,运维工作量和操作复杂度随之攀升。与此同时,AI Agent 凭借强大的语言理解与任务编排能力,正在成为新的运维协作入口,越来越多团队开始尝试把重复、标准化、多步骤的任务交给 Agent 辅助执行,把复杂的问题排查交给 AI 辅助分析。


但要让 AI Agent 真正进入生产运维闭环,不能只停留在“理解问题、生成建议或脚本”的阶段,还需要一套稳定的云监控能力执行入口、标准化的领域流程、必要的人工确认和可校验的执行结果。云监控 CLI + Agent Skill 正是面向这一需求构建的能力套件。

CLI+Skill 的解决方案

阿里云云监控 CLI(aliyun cms2)提供统一、稳定、可审计的能力入口,CMS Agent Skill [ 1] 则把云监控领域的业务语义和操作流程沉淀为 AI Agent 可理解、可执行的工作流。二者配合,AI Agent 可以从“帮我把这个 ACK 集群接入云监控”这样的自然语言指令出发,自动完成场景识别、参数生成、CLI 调用、API 执行和结果校验。


  • 统一命令树:CLI 已覆盖 CMS 2.0 控制台中的接入中心、Prometheus 服务、应用监控、用户体验监控、告警中心、事件中心等能力。后续将继续覆盖云拨测、Grafana 大盘等能力,实现对 CMS 2.0 控制台的完整覆盖。
  • AI Agent 原生适配:
  • 提供规范、明确、细致的 --help 信息,支持 --show-schema--show-example-body 等辅助能力,帮助 AI 准确处理各类业务场景;
  • 默认使用 -o text 输出紧凑 CSV,显著降低 AI Token 消耗;
  • 通过结构化 JSON 错误码,支持 Agent 根据错误原因自动决策和修复。
  • Skill 驱动:配套 Skill 文档沉淀完整业务工作流,Agent 无需硬编码即可完成复杂多步操作。

CLI+Skill 工作流程

对运维人员来说,最直观的变化是:不再从控制台入口或 API 参数开始操作,而是从一个明确的运维目标开始,由 Agent 按标准流程完成后续执行与校验。这条链路的核心是“可控自动化”:Agent 不会绕过运维体系,而是通过统一 CLI 入口和 Skill 中沉淀的业务规则执行操作。这样既能减少重复劳动,又能保留必要的权限、确认和审计边界。

安装与配置

安装 Skill/CLI

  • 打开阿里云 Agent Skills 门户 [ 1] 的 alibabacloud-cms-manage Skill,按界面引导完成 Skill 安装。

  • 安装完成后,AI Agent 使用 Skill 时会自动检测并引导安装或更新阿里云 CLI 及 cms2 插件到所需版本,无需手动处理环境依赖。
# 验证 CLI 安装成功
aliyun version
# 验证 cms2 插件可用
aliyun cms2 --help

配置凭证

支持 AccessKey、STS Token 等多种凭证类型,详见:配置阿里云 CLI 身份凭证 [ 2]

# 交互式配置(推荐首次使用)
aliyun configure
# 非交互式配置
aliyun configure set \
  --access-key-id YOUR_AK \
  --access-key-secret YOUR_SK \
  --region cn-hangzhou

实战场景一(接入中心):ACK 集群接入云监控

业务场景

SRE 团队新建了一个 ACK 集群用于部署微服务,需要将集群的节点、Pod、容器等指标接入云监控。

使用方式

您只需要在 AI Agent 对话中输入:

帮我看看杭州有哪些容器集群没有可观测能力,帮我接入一下。

Agent 就会自动完成整个接入流程,用户只需在关键节点确认即可。

AI Agent 支持的核心能力

步骤 Agent 自动执行的操作
步骤1:查询容器集群 通过云资源中心,查询符合条件的容器集群列表
步骤2:已接入实例判断 查询实体数据(EntityStore),过滤掉已接入云监控的实例
步骤3:资源验证 通过云资源中心查询集群 ID,确认其真实身份、所属账号等信息
步骤4:组件选择 从接入组件目录中匹配适合 ACK 场景的 Addon(监控组件),获取参数 schema 和工作流模板
步骤5:策略创建 创建集成策略(Integration Policy),关联目标 Workspace
步骤6:组件部署 创建 Addon Release,将集群的指标采集接入到 Prometheus 实例
步骤7:结果验证 检查存储实例、关联大盘和采集 Job 目标,确认数据链路畅通

接入中心的常见场景和提示词示例

按资源组接入: 将默认资源组下,北京区域的所有 RDS 接入云监控的 {workspace} 下。

按标签接入: 将匹配标签key= {tagKey},value={tagValue}的所有 ECS 接入云监控的 {workspace}下。

跨账号接入: 将 {资源目录成员账号uid} 的上海区域下,所有 AI 网关接入云监控下。

监控组件部署: 在接入策略 {策略id/名称} 下增加 ACK 成本洞察组件接入。

指标采集 target 检查: 检查 ACK 集群 {集群Id/名称} 的 apiserver 相关 scrape target 是否正常。

自定义采集规则查询: 查询接入策略 {策略id/名称} 的 serviceMonitor/podMonitor/customJob 列表。

实战场景二(告警中心):智能告警规则管理

业务场景

SRE 需要为生产环境建立完善的告警体系,以容器服务集群节点为例,配置专业的节点告警规则。

使用方式

以下是典型的对话示例:

针对容器的告警有什么建议,然后帮我 apply。

AI Agent 支持的核心能力

步骤 Agent 自动执行的操作
步骤1:查询现有告警规则 查询容器实例对应的现有告警规则列表
步骤2:查询指标信息 查询容器实例现有的指标列表和labels
步骤3:生成告警规则配置 结合现有告警规则,生成各主要组件的告警规则配置
步骤4:Dry Run 告警规则 Dry Run 生成的告警规则,确认其有效性
步骤5:创建告警规则 创建现有未覆盖的告警规则
步骤6:修改现有告警规则 对现有不合理的告警规则进行修改

告警中心的常见场景和提示词示例

智能分析告警规则: 分析现有告警是否配置合理,是否存在告警噪声,不合理就一键修改。

查询告警规则: 查询工作空间 {workspace} 下,云产品监控的所有运行中的告警规则。

修改告警规则联系人: 将告警规则 {规则id/名称} 的通知对象改为 {联系人}。

删除告警规则: 删除 Prometheus 实例 {实例id/名称} 的 {规则名称} 告警规则。

查询告警历史: 查询告警规则 {规则id/名称} 的1 周内的告警历史。

实战场景三(Prometheus 服务):Prometheus 实例管理与数据查询

业务场景

运维团队需要管理多个 Prometheus 实例,分析监控指标和业务健康状况,并配置 Recording Rule 预聚合高频指标。

使用方式

以下是典型的对话示例:

帮我看看杭州有哪些 Prometheus 实例,按工作空间分组展示。

以下为 Agent 支持的核心能力概览

能力 Agent 自动执行的操作
Prometheus 实例管理 创建、查询、更新、删除 Prometheus 实例,支持按标签、地域过滤
Prometheus 聚合视图管理 创建、查询、更新、删除 Prometheus 聚合视图
Recording Rule 管理 创建/删除预聚合规则,管理规则的启停状态

Prometheus 服务的常见场景和提示词示例

修改 Prometheus 实例存储时长: 修改 Prometheus 实例 {实例Id/名称} 的存储时长为 90 天,归档时长为 180 天。

创建RecordingRule: 在 Prometheus 实例 {实例Id/名称} 下,创建一个 Recording Rule,预聚合各节点的 5 分钟平均 CPU 利用率。

停止RecordingRule: 停止 Prometheus 实例 {实例id/名称} 下的 {聚合任务名} 预聚合任务。

创建 Prometheus 聚合视图: 创建一个聚合视图 {聚合视图名},包含 {workspace} 空间下 {区域名} 区域的所有 Prometheus 实例。

实战场景四(应用性能监控 APM):应用监控/AI 可观测接入

此场景的接入流程包括初始化 APM 基础设施、获取凭证、注册应用、获取配置模板、验证接入等步骤,传统接入过程较复杂。通过 CLI + Skill 可极大简化流程,实现自然语言交互式接入。


详情参考《告别复杂接入流程:用 AI Agent Skill 驱动云监控可观测接入》。

实战场景五(数据查询):元数据、PromQL 和基础云监控指标查询

业务场景

查询元数据、Prometheus 指标数据、基础云监控指标数据,以便分析业务运行情况、排查故障/问题。

使用方式

以下是典型的对话示例:

CPU使用率最高的 ECS 列表: 找出最近半小时内 CPU 使用率最高的10台 ECS 实例。

以下为 Agent 支持的核心能力概览

能力 Agent 自动执行的操作
元数据(Meta)查询 执行指标、namespace、事件元数据查询
PromQL 查询 对接入云监控指标监控的资源,执行即时查询和范围查询,以及 label、labelValues、series 元数据查询
基础云监控指标查询 执行基础云监控的top、latest、range、points等查询
Trace查询 执行链路追踪数据查询

数据查询的常见场景和提示词示例

RDS 慢查询: 查询过去 30 分钟内执行时间超过 1 秒的慢查询数量趋势。

容器资源请求浪费: 查找容器集群内,过去 7 天内资源申请过大但实际使用很少的“僵尸”资源。

容器 Pod 内存泄漏嫌疑: 查找容器集群 {集群名/id} 的 {ns} 下,过去 1 小时内存使用量持续增长,且当前值超过限值 90% 的 Pod 列表。

总结

阿里云云监控 CLI(aliyun cms2)与配套的 CMS Agent Skill,不只是将控制台/API 能力迁移至命令行,更是在为可观测运维构建一套面向 AI Agent 的标准操作界面。它把分散在接入、配置、查询、告警、事件等场景中的能力统一起来,让运维人员可以用更自然的方式表达目标,用更可控的方式完成执行,用更清晰的链路完成验证和审计。

对运维团队来说,这意味着可观测建设正在从“人找入口、人拼参数、人做验证”的手工阶段,逐步走向“人定义目标、Agent 编排流程、CLI 执行操作、AI 校验结果”的协同阶段。


AI 不是要替代运维判断,而是显著降低重复操作、跨系统协作和复杂流程执行的成本,提升问题排查与故障定位的效率,让 SRE 把更多精力投入到稳定性设计、告警治理和故障复盘等更高价值的工作中。


后续我们将持续丰富 CLI 与 Skill 的能力范围,全面覆盖云监控业务场景。面向 AI 时代,云监控 CLI + Skill 希望成为运维人员和 AI Agent 之间稳定、可信、可扩展的可观测能力底座,推动自动化、智能化运维从单点尝试走向规模化落地。


相关链接:

[1] CMS Agent Skill / 阿里云 Agent Skills 门户

https://skills.aliyun.com/skills/alibabacloud-cms-manage

[2] 配置阿里云 CLI 身份凭证

https://help.aliyun.com/zh/cli/configure-credentials


附录:CMS CLI 命令树

aliyun cms2
  │                # 接入管理域
  ├── integration                 接入管理(包含接入策略、Addon 组件、采集规则等的全生命周期)
  │   ├── policy                  接入策略管理,包含 create|get|update|delete|list 等命令
  │   ├── storage                 查询接入策略绑定的 Prometheus 存储实例,包含 list 等命令
  │   ├── dashboard               查询接入策略关联的 Grafana 大盘,包含 list 等命令
  │   ├── resource                容器服务类别接入策略的资源列表查询,包含 list 等命令
  │   ├── job-target              接入策略的采集任务的 scrape targets 状态查询,包含 list 等命令
  │   ├── service-monitor         接入策略的Kubernetes ServiceMonitor 采集规则查询,包含 list 等命令
  │   ├── pod-monitor             接入策略的Kubernetes PodMonitor 采集规则查询,包含 list 等命令
  │   ├── custom-job              接入策略的自定义 Prometheus 采集 Job 查询,包含 list 等命令
  │   ├── addon-release           接入策略的已部署组件实例管理,包含 create|get|update|delete|list 等命令
  │   └── addon                   可用接入组件目录管理,包含 get|list 等命令
  ├── workspace                   工作空间管理,包含 create|get|list|update|delete 等命令
  │               # APP应用管理域
  ├── prometheus                  Prometheus 服务管理(包含Prometheus实例、聚合视图、RecordingRule等)
  │   ├── instance                Prometheus 实例管理,包含 create|get|update|delete|list 等命令
  │   ├── view                    Prometheus 聚合视图管理,包含 create|get|update|delete|list 等命令
  │   └── recording-rule          RecordingRule 预聚合管理,包含 create|get|update|start|stop|delete|list 等命令
  ├── apm                         应用性能监控管理
  │   ├── service                 APM 应用服务管理,包含 create|get|update|delete|list 等命令
  │   └── configuration           APM 配置管理,包含 get|create 等命令
  ├── rum                         用户体验监控管理
  │   ├── service                 RUM 应用服务管理,包含 create|get|update|delete|list 等命令
  │   └── configuration           RUM 配置管理,包含 get|create 等命令
  │               # 告警与事件域
  ├── alert                       告警中心管理(包含告警规则、告警模板、告警历史等)
  │   ├── rule                    告警规则管理,包含 create|get|update|patch|delete|list|enable|disable 等命令
  │   ├── template                告警规则模板管理,包含 list|get|create|update|delete|apply 等命令
  │   └── history                 告警触发与恢复的历史管理,包含 list 等命令
  ├── notification-channel        通知渠道管理
  │   ├── contact                 告警联系人(邮件、短信、钉钉)管理,包含 list 等命令
  │   ├── robot                   告警机器人(钉钉/飞书/企微群机器人)管理,包含 list 等命令
  │   └── webhook                 Webhook 回调地址管理,包含 list 等命令
  ├── event-hub                   事件中心管理, 包含 list|get 等命令
  │               # 数据查询域
  ├── metric                      指标查询
  │   ├── promql                  PromQL 即时/范围查询及元数据检索,包含 query|query-range|labels|label-values|series 等命令
  │   └── basic                   云监控1.0指标查询,包含 points|latest|range|top|export 等命令
  ├── trace                       Trace数据查询,包含 search|tree 等命令
  ├── entity                      云资源与 EntityStore 查询,包含 query 等命令
  └── meta                        元数据查询,包含 metrics|namespaces|events 等命令


点击此处,了解云监控 2.0 全生命周期管理详情。

相关文章
|
2天前
|
人工智能 运维 安全
阿里云 Agent Infra 上长出的约束基建
Harness = 定义约束 + 校验输出 + 建立反馈回路。
179 124
|
4天前
|
数据采集 人工智能 安全
别再提“白帽GEO”了——为什么“合规GEO”才是对抗AI投毒的真正底线
本文批判滥用“白帽/黑帽”等过时SEO术语描述生成式引擎优化(GEO)乱象,指出AI投毒、虚假榜单等已逾越技术作弊范畴,触及法律与伦理红线。倡导以“合规GEO”取代理论失焦的旧话术,强调技术、平台、法律三层硬性底线——用对词,方能认清危险;守合规,才是真优化。(239字)
202 120
|
2天前
|
人工智能 自然语言处理 API
【Azure AI Search】 stopword 是什么,为什么它会影响搜索结果?
本文解析 Azure AI Search 中搜索 "in brief" 返回结果过多的问题,指出根源在于 analyzer 对停用词(如 "in")的处理差异:默认 `standard.lucene` 保留停用词导致泛匹配,而 `en.microsoft` 会过滤停用词,使结果更精准。关键在于根据业务语义选择合适 analyzer。
177 121
|
4天前
|
消息中间件 人工智能 数据挖掘
企业AI调用资产化:从"谁用谁知道"到"组织可复用"的技术路径
企业AI调用产生的Prompt、工作流、上下文配置正在成为新的知识资产,但散落在个人账号中无法沉淀。本文从工程角度拆解一条完整的"收口→采集→提纯→入库→蒸馏"链路,探讨技术实现中的关键设计决策。
195 123
|
3天前
|
人工智能 自然语言处理 API
【Azure AI Search】Index的字段使用默认Analyzer(standard.lucene) 和 en.microsoft 有什么不同?
Azure AI Search英文检索因词形差异(如brief/briefs)无法匹配,根源在于analyzer选择:默认standard.lucene不处理词形还原,而en.microsoft支持lemmatization,可将变体还原为基本形式。需通过新增字段并配置en.microsoft analyzer解决,兼顾检索质量与业务需求。
194 124
|
7天前
|
Web App开发 iOS开发
苹果自带浏览器展示不了钉钉二维码
使用window.DTFrameLogin函数,在safari不展示二维码
221 122
|
8天前
|
人工智能 API C++
Claude Code 2.1.163 新特性:c to copy
Claude Code 新增「c to copy」快捷键:按 `c` 即可将 AI 的原始 Markdown 答案(含代码块、标题、列表等格式)一键复制,粘贴至 Notion/Obsidian/GitHub 等平台自动渲染。省去手动排版,守护心流,小功能见真功夫。(239字)
247 122
|
8天前
|
存储 消息中间件 人工智能
阿里云 OSS 发布 Table Bucket,对象、向量、表格三合一,打造 AI Native 的多模态数据存储统一底座
阿里云 OSS 推出T able Bucket,集成 Apache Iceberg 语义,高效管理海量结构化数据。与对象桶、向量桶协同,构建覆盖非结构化、向量、结构化数据的多模态统一存储底座,支持零改造迁移、实时入湖与跨引擎分析,助力 AI Agent 时代数据高效治理。
407 121
|
1月前
|
存储 Rust NoSQL
一条命令迁移,帮你实现 OpenClaw 与 Hermes Agent 记忆互通!
本文是基于阿里云 Tablestore 的 Agent 记忆共享实战指南:一条命令迁移 OpenClaw 记忆至 Hermes,通过统一 Tablestore 实例、应用 ID 与租户 ID,实现跨Agent(如龙虾与马)记忆自动互通、实时同步与语义检索,支持 CLI 管理与对话中直接调用,安全可靠,开箱即用。
652 122
|
1月前
|
存储 运维 NoSQL
你的企业知识库,何必自己折腾?Tablestore 知识库服务帮你一站式搞定
Tablestore 知识库服务是阿里云推出的全托管 RAG 解决方案,基于 Serverless 架构,支持文档自动解析、向量化、混合检索与Subspace多租户隔离;数据全程留存客户OSS/Tablestore账户,零运维、按量付费,满足金融、政务等高合规场景需求。
612 124

热门文章

最新文章