阿里云 MSE AI Registry 公测开启:给你的 AI 资产一个专属的注册中心

简介: AI Registry 公测开启,一文了解产品能力、AgentLoop 集成与 Skill 规划。

作者:朱桐(濯光)


AI 应用的规模正在快速增长,围绕 Prompt 和 Skill 的管理需求也随之涌现。社区里已经有不少 Prompt 平台和 Skill 市场,解决了共享和发现的问题。但当 AI 应用进入企业生产环境,需求就变了——版本谁来管?发布谁来审批?线上出了问题能不能秒级回滚?不同团队的资产怎么隔离?权限怎么控制?


这些问题,社区平台不需要回答,但企业必须回答。


企业的 AI 资产——Prompt、Skill、私有 API 对接逻辑——散落各处,版本混乱,缺乏统一管理。代码有 Git,包有 npm,容器有镜像仓库,企业的 AI 资产同样需要一个自主可控的注册中心。


今天,AI Registry 正式开启公测,为企业提供这个答案。


AI Registry:企业级 AI 资产注册中心


AI Registry 是阿里云微服务引擎 MSE 推出的全托管 AI 资产注册中心,是 Nacos AI Registry 能力的云服务 SaaS 版本。底层基于 Nacos 构建,客户端直接使用 Nacos SDK 接入,已经在用 Nacos 的团队可以零学习成本上手。它为 Prompt、Skill、Agent 等 AI 资产提供统一的注册、版本管理、发现与治理能力,帮助企业建立规范化的 AI 资产管理体系。


全托管,零运维。无需购买实例、无需搭建集群,创建工作空间即可开始使用,底层资源自动分配和扩缩。开发者可以专注于 AI 应用本身,不需要关心基础设施的运维。

控制台管理,客户端集成。AI 资产的创建、编辑、版本发布、标签管理等操作通过控制台完成,提供可视化的管理界面。应用运行时通过客户端 SDK 或 API 实时拉取资源,管理和消费分离,各司其职。

工作空间隔离。每个团队或项目拥有独立的工作空间,资源严格隔离。开发环境与生产环境各自独立,互不干扰。满足多团队、多项目、多环境的管理需求。

企业级安全。工作空间数据隔离及子账号细粒度权限管控,确保不同用户、不同工作空间之间的数据严格隔离。支持细粒度的权限控制,可以精确到某个工作空间下的某类资源,满足企业内部不同角色的权限管理需求。

AI 辅助能力。提供 Prompt 智能优化和在线调试能力,降低 Prompt 工程的门槛。


首批能力:Prompt 全生命周期管理


Prompt 是 AI 应用中最核心也最频繁变动的资产。一个 Agent 的行为表现,很大程度上取决于 Prompt 的质量。但在实际开发中,Prompt 的管理方式往往是最粗放的——写在代码常量里,改一次就要走一轮发布;或者放在配置文件中,多人协作时版本冲突不断。更棘手的是线上运维:生产环境跑的是哪个版本的 Prompt?上次修改是谁做的?新版本效果不好能不能快速回退?这些问题在缺乏专门工具的情况下,只能靠人工记录和口头约定来解决。


AI Registry 公测首批上线的 Prompt 管理能力,就是要把这套流程从手工模式升级为工程化管理,覆盖从编写、调试到生产运行的完整链路。


版本管理与灰度发布

每个 Prompt 拥有完整的版本历史,草稿、审核、发布三个状态清晰区分。发布采用标签路由机制,标签由用户自行定义,常见的用法如 stablecanarygray 等。灰度验证时将 canary 标签指向新版本,生产流量继续走 stable,验证通过后再切换。出现问题时,标签切回上一版本,秒级回滚,业务无感。


客户端实时拉取

应用运行时通过 SDK 或 API 按标签或版本号拉取 Prompt,支持增量检测——无变更则不重复拉取。Prompt 在平台上更新发布后,客户端实时感知,无需重新部署应用。


过去修改一个 Prompt 需要走代码发布流程,现在在平台上完成编辑和发布,线上即时生效,大幅缩短 Prompt 的迭代周期。


在线调试与 AI 优化

平台内置多模型流式调试能力,编写完 Prompt 后可直接在控制台选择模型、调整参数、验证效果,适合日常编辑时的快速验证。同时提供 AI 辅助优化功能,自动分析 Prompt 并给出改进建议,降低 Prompt 工程的门槛。如果需要更系统化的多版本对比实验和自动化评估,可以结合 AgentLoop 的 Playground 使用(详见下一章节)。


后续,Prompt 管理还将接入安全审核能力,在发布前自动检测 Prompt 注入风险、敏感信息等安全隐患,为企业生产环境增加一道防线。


与 AgentLoop 集成:可观测驱动的 Prompt 数据飞轮


AgentLoop 是基于阿里云 CMS 2.0 构建的面向大语言模型(LLM)应用的全生命周期数据观测与数据飞轮平台[1]。它围绕 AI 应用运行时产生的 Trace、Log、Metric、Conversation 等数据,提供全链路可观测、自动化评估、Playground 实验和长期记忆等能力,帮助企业构建 Agent 的持续改进闭环。


Prompt 的优化不是一次性的工作。写出第一版、部署上线只是起点,真正决定 AI 应用效果的是后续的持续迭代——观察线上表现,发现问题,调整优化,再部署。这个循环转得越快,应用效果就越好。


AI Registry 与 AgentLoop 在 Prompt 管理层面打通后,形成了一条完整的数据飞轮链路。


Playground:Prompt 调试与评估

AgentLoop 的 Playground 是一个可视化的实验环境,支持同时配置最多 5 组实验分支,对比不同模型、不同参数、不同 Prompt 版本的表现。


Playground 可以直接选择 AI Registry 中管理的 Prompt,无需手动复制内容,版本对齐自动完成。通过 {{变量名}} 语法注入数据集样本,挂载评估器自动打分,量化每个版本的效果差异。系统会记录每次实验的完整快照——模型配置、Token 消耗、首字延迟、评估得分,确保实验结果可追溯、可复现。


确认最优版本后,在 AI Registry 中发布,通过标签路由(stable / canary)控制灰度比例。线上应用通过 SDK 实时拉取最新版本,无需重新部署。


线上观测:Trace 采集与持续评估

Prompt 上线后,AgentLoop 通过 Python 探针自动采集线上 Trace 数据——每次 LLM 调用的输入输出、Agent 执行链路、工具调用详情、Token 消耗和响应延迟,全部记录在调用链中。


基于这些线上数据,AgentLoop 的评估任务可以持续运行:对线上 Trace 按采样比例自动评估,通过预置评估器实时打分,覆盖通用场景(安全性、连贯性、完整性)、RAG 场景和 Agent 场景,自动识别低分样本和 Bad Case。


数据回流:从问题发现到版本迭代

线上发现的 Bad Case 不会停留在报表里。把低分样本导入数据集,在 Playground 中针对性地调整 Prompt,通过对比分析功能设置基准组,计算新版本在准确率、耗时、成本等维度的差异值,文本级 Diff 高亮定位输出变化。确认改进效果后,发布新版本到 AI Registry,线上应用自动拉取。


整个链路形成闭环:创建 → 调试评估 → 灰度发布 → 线上观测 → 问题发现 → 优化迭代AI Registry 负责版本管理和发布控制——哪个版本在灰度、哪个版本在生产、需要回滚时秒级切换。AgentLoop 负责效果度量和问题发现——线上跑得怎么样、哪里有退化、改了之后是否真的变好了。数据在链路中持续流转,Prompt 的质量随着每一轮循环不断提升。


后续,AgentLoop 的可观测能力将进一步与 AI Registry 打通——从客户端采集 Prompt 名称和版本信息,让开发者直接看到线上每个版本的流量分布和效果指标,进一步缩短从“发现问题”到“定位到具体 Prompt 版本”的路径。


即将上线:Skill 管理


除了 Prompt 管理,AI Registry 的 Skill 管理能力也将于近期正式上线。


为什么需要 Skill Registry

Skill 是 Agent 能力的最小复用单元——一个处理日期格式的工具、一套调用内部 API 的封装、一段特定领域的推理逻辑,都可以打包成 Skill,供多个 Agent 发现和引用。


当前 AI Skill 生态增长迅速,但企业级场景面临几个现实问题:

  • 团队内部沉淀了不少好用的 Skill,但复用方式还是复制粘贴,各处用的版本不一致,改了一处其他地方不知道。
  • 企业自研的 Skill 往往包含业务 Know-how 和私有 API 对接逻辑,不适合放到公共平台上,需要一个自主可控的内部 Registry 来承载。
  • Skill 直接影响 Agent 的行为,上线前需要经过审核,出了问题需要能快速回滚,但目前缺乏这样的管控机制。


Skill 管理能力

AI Registry 的 Skill 管理为企业场景而设计,提供从注册到运行的完整能力:


注册与格式兼容。Skill 以 ZIP 包形式组织,包含 SKILL.md 描述文件和资源文件(模板、数据、脚本等)。这套格式与社区 Skill 兼容,已有的 Skill 可以直接导入,也支持通过控制台在线创建和编辑。

版本管理与灰度发布。和 Prompt 一样,Skill 支持完整的版本历史和自定义标签路由。新版本先挂 canary 标签在灰度环境验证,通过后切换 stable,出问题秒级回滚。每个版本的变更记录完整留存,满足审计和溯源需求。

审核工作流。Skill 发布不再是"提交即上线"。支持草稿 → 审核 → 发布的流程,生产环境的 Skill 上线需要经过明确审批。测试环境可以配置为直接发布,生产环境强制审核,兼顾开发效率和上线安全。

独立上下线控制。支持 Skill 级别和版本级别的独立上下线。可以整体下线一个 Skill,也可以只下线某个有问题的版本,不影响其他版本的正常运行。

搜索发现与客户端消费。注册到 Registry 的 Skill 支持模糊搜索和标签过滤,方便团队内部发现和复用。客户端搜索接口只返回已启用且有线上版本的 Skill,Agent 可以在运行时动态发现和加载所需能力。

下载统计。每个 Skill 版本的下载次数自动统计,帮助团队了解哪些 Skill 被广泛使用,哪些需要推广或淘汰。

从社区发现好用的 Skill,引入企业自己的注册中心,与外部平台解耦——这是 AI Registry 为企业提供的 Skill 治理路径。


开始使用


AI Registry 已于 4 月 15 日正式开启公测。登录控制台,创建工作空间,即可开始管理您的 AI 资产。


AI Registry 控制台:

https://mse.console.aliyun.com/#/ai-registry

AI Registry 产品文档:

https://help.aliyun.com/mse/user-guide/ai-registry-ram-permission-configuration-guide

AgentLoop 文档:

https://help.aliyun.com/zh/cms/cloudmonitor-2-0/what-is-agentloop


相关链接:

[1] AgentLoops 是什么
https://help.aliyun.com/zh/cms/cloudmonitor-2-0/what-is-agentloop

相关文章
|
30天前
|
人工智能 Linux API
OpenClaw 阿里云秒级部署保姆级教程:从0到1搭建7×24小时AI助手
2026年3月,OpenClaw(原Clawdbot)凭借其轻量化架构、丰富技能生态与大模型适配能力,成为个人与小型团队搭建AI助手的首选方案。阿里云提供专属应用镜像与一键部署能力,可实现“秒级上线”,搭配百炼Coding Plan免费大模型API,无需本地算力即可拥有7×24小时在线的AI智能体。本文提供从服务器选购、端口放行、一键部署、模型配置到本地MacOS/Linux/Windows11联动的全流程保姆级教程,所有命令可直接复制执行,无冗余步骤,零基础也能一次成功。
422 11
|
14天前
|
人工智能 Linux API
OpenClaw部署图文指南|阿里云无影云电脑+本地MacOS/Linux/Windows11+千问/Coding Plan API配置教程
本文完整覆盖2026年阿里云轻量服务器部署及本地MacOS/Linux/Windows11部署OpenClaw(Clawdbot)步骤流程及阿里云千问大模型API配置或市场上免费大模型Coding Plan API配置及常见问题解答,从阿里云无影云电脑一键部署,到本地三大操作系统全流程搭建,再到阿里云千问与免费Coding Plan大模型API对接,全程提供可直接复制的代码命令、可视化操作指引与高频问题解决方案,确保零基础用户一次部署成功、稳定运行。
207 5
|
11天前
|
缓存 运维 监控
当你的 Agent 会“多轮思考”,Trace 却还停留在单轮:阿里云 CMS OpenClaw 可观测插件升级
阿里云 OpenClaw 可观测插件新版本上线!解决行业通病,还原完整链路信息:多轮 LLM 分段还原真实决策链路、STEP Span 让"第几轮"可观测、并发断链/串链显著修复、AGENT 指标稳定可量化。从"有图可看"升级到"支撑决策",排障、成本治理、并发验证全面提效。
164 11
|
1月前
|
人工智能 自然语言处理 监控
【养龙虾保姆级教程】OpenClaw是什么?能做什么?怎么部署?
“养龙虾”是开发者对开源AI智能体框架OpenClaw的昵称——它能在本地运行,理解自然语言并直接操控电脑执行任务(如办公、开发、爬虫等),堪称可自托管的“数字员工”。本文带你零基础掌握其原理、能力与安全部署方法。
653 10
|
1月前
|
Arthas 人工智能 Java
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
Arthas Agent 是基于阿里开源Java诊断工具Arthas的AI智能助手,支持自然语言提问,自动匹配排障技能、生成安全可控命令、循证推进并输出结构化报告,大幅降低线上问题定位门槛。
1096 64
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
|
11天前
|
人工智能 监控 Kubernetes
LoongCollector + ACS Agent Sandbox:构建 AI Agent 生产级运行平台
文章介绍了阿里云ACSAgentSandbox与LoongCollector协同构建的AIAgent生产级运行平台,通过沙箱隔离保障运行时安全,并以高性能、全链路可观测能力解决Agent行为不可预测和执行风险难题。
165 11
|
26天前
|
弹性计算 人工智能 Linux
OpenClaw是什么?OpenClaw入门详解、阿里云ECS/本地部署及免费大模型配置教程
OpenClaw(社区俗称Clawdbot,龙虾)是一款基于MIT开源协议开发的自托管AI智能体执行网关,核心价值在于打破传统AI“只会说不会做”的局限,连接大语言模型与设备系统、工具应用,将自然语言指令转化为可落地的实操动作,实现从需求下达、任务拆解到执行反馈的全流程闭环。与单纯输出文字的对话式AI不同,OpenClaw可直接操控终端、管理文件、自动化浏览器操作,兼顾数据隐私与执行效率,无需专业技术背景,零基础用户也能快速部署使用。
1349 5
|
15天前
|
存储 安全 测试技术
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
ADK 提供 Sequential、Parallel、Loop 三种智能体编排模式,支持订单接收、库存检查、生产调度等多角色协同;状态通过 output_key 自动流转,无需手写胶水代码,轻松构建端到端业务流水线。
103 4
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
|
6天前
|
JavaScript 前端开发 安全
前端组件库——Naive UI知识点大全(一)
教程来源 https://hllft.cn/category/artificial-intelligence.html Naive UI是Vue 3 + TypeScript现代化UI库,由图森未来开源。主打轻量、高性能、零CSS导入、全组件Tree Shaking及类型安全主题系统,已获GitHub 1.5w+ Star,适合追求开发体验与性能的中后台项目。
|
16天前
|
Web App开发 Windows
FDM下载安装教程:fdm_x64_setup_6.14.2.3973完整使用指南
Free Download Manager(FDM)6.14.2.3973是专为Win系统优化的免费下载利器:支持HTTP/FTP/BT/磁力链,多线程加速达浏览器3–5倍,断点续传、轻量无广告。本文详解安装、浏览器接管、BT下载及限速/批量等实用设置,助你秒变下载高手。
783 5

热门文章

最新文章