对个人开发者而言,近期爆火的 OpenClaw 部署门槛低,能快速打通本地环境,满足了通用自动化需求。然而,当 AI Agent 从个人辅助走向企业级生产环境,核心诉求变成了:能否在安全、稳定、可控的前提下,持续运行于组织级体系中?
为了解决这一难题,MiniMax 与阿里云展开深度合作。MiniMax 依托于阿里云容器服务 Kubernetes 版(ACK)和容器计算服务(ACS)提供的 ACS Agent Sandbox,为其最新发布的企业级平台 MaxClaw 构建了一套端到端的云原生 Agent 基础设施。
OpenClaw 企业级落地面临的挑战
挑战1:难以满足企业级安全隔离与治理要求
当前,OpenClaw 直接运行于宿主机操作系统层,具备 Shell 执行、文件读写、浏览器控制等高权限能力;同时,部分实例长期暴露于公网环境,进一步放大了远程利用与权限失控风险,使其受攻击面显著高于传统对话式应用。
对于企业级场景而言,仅具备本地执行能力远远不够,还必须围绕高权限操作建立完善的隔离、控制与治理机制。
挑战2:长任务与跨会话执行能力不足
当 AI 从“对话式”演进到“行动式”,其运行模型也从短时交互转向长任务、多阶段和跨会话执行。这要求系统能够持续维护上下文记忆、任务状态和执行进度,并在中断、故障或重启后实现恢复与续接。
OpenClaw 的设计重心偏向单体运行与即时执行逻辑,在持久化状态管理、长任务恢复和跨会话一致性方面能力有限。对于需要长期运行、稳定闭环的企业任务而言,这一短板尤为关键。
挑战3:缺乏面向大规模集群的统一运维能力
OpenClaw 在企业环境中的真正挑战,往往不在于单个实例是否可用,而在于海量实例能否被统一管理。
OpenClaw 的架构设计更适合单机自治或小规模部署,但当企业需要同时运行数万乃至数十万级 Agent 时,问题会迅速从“实例可用性”升级为“平台治理能力”。企业需要的是覆盖弹性调度、版本升级、故障自愈、策略变更和运行观测的全生命周期管理能力。
挑战4:低谷空转、高峰抢占、整体利用率低
OpenClaw 具有明显特征:首先是“低谷空转”,即为了保持 Long-Running 常驻运行,维持会话状态、心跳检测和任务响应能力,即使在空闲阶段,实例仍会持续占用计算与存储资源,形成较高的基础成本。
同时,Agent 在任务执行过程中具有明显的突发性,即“高峰抢占”:在复杂任务触发后,模型推理、工具调用和多步执行的资源消耗会在短时间内迅速拉升。由于实例规格通常只能按峰值能力预留,企业不得不在高峰保障与日常成本之间做出权衡。
MaxClaw:企业级 AI Agent 的云原生重构
基于阿里云云原生架构,MaxClaw 将 AI Agent 从单体运行时升级为具备统一治理、弹性调度、持久化状态和规模化运维能力的企业级执行平台。
图|MiniMax MaxClaw 技术架构图
安全隔离:受控执行边界让 Agent 真正可控可用
针对高权限执行场景,MaxClaw 基于阿里云云原生隔离基础设施,将 Agent 的执行过程从“宿主机直接运行”重构为“沙箱内受控执行”,为每个运行实例建立独立、安全、可治理的执行边界。
在具体实现上,阿里云与 MiniMax 共同构筑面向企业场景的安全隔离能力:
(1)计算层
基于 MicroVM(轻量级虚拟机),阿里云 ACS Agent Sandbox 为每个 MaxClaw 实例提供独立的虚拟机级隔离环境,使每个沙箱运行在独立内核中。相较于传统容器方案,ACS Agent Sandbox 的安全边界更接近完整虚拟机,能够显著降低沙箱内越权执行风险。
(2)存储层
MaxClaw 为每个 Agent 实例分配基于 ESSD 云盘的专属可加密存储空间,作为私有工作空间承载配置文件、会话与运行状态,并支持 BYOK 等加密机制,确保数据在实例之间彻底隔离、在存储介质上全程受保护。在 Agent 实例销毁后,存储介质可被彻底擦除,有效避免敏感数据残留。
同时,系统在会话启动时通过 CSI 安全动态挂载 NAS 子目录,使实例仅能访问授权范围内的数据目录,从操作系统层面进一步收敛数据可见边界。
(3)网络层
MaxClaw 采用 ACK 轻量级容器网络访问控制策略 TrafficPolicy,对实例间互访实行默认拒绝,并结合企业安全组实现出入站流量的精细化管控,避免单点风险扩散为集群级影响。通过这一机制,每个沙箱不仅在计算和存储层具备独立边界,也在网络层面形成最小可达的封闭执行域。
状态连续:持久化存储让 Agent 具备长程执行能力
针对长任务与跨会话场景下的状态连续性挑战,MaxClaw 基于阿里云不同存储介质将 Agent 状态从短生命周期运行环境中解耦出来,通过分层持久化存储架构,为长程执行提供稳定、可恢复、可追踪的数据底座。无论是 Memory、Cache,还是会话历史与工具调用记录,都可以实时落盘并持续保存在持久化介质中。这样一来,即便遭遇节点故障、实例迁移或弹性调度,Agent 仍能够基于历史状态快速恢复上下文,实现任务的续接执行。
从具体数据分层来看,MaxClaw 通过以下存储形态实现状态托管:
(1)基于沙箱内置 ESSD 云盘的私有工作空间
用于承载实例级、强隔离、需高性能读写的核心状态数据,主要包括:
- 配置类数据:如系统镜像依赖、openclaw.json 配置文件、.env 环境变量、API 密钥、通道凭证等私有化信息。这类数据存放在高可靠存储中,可在实例恢复时快速重建运行状态;
- Memory 数据:包括如/workspace/memory/MEMORY.md 等记忆文件,以及~/claw/agents/sessions/.jsonl 等会话状态文件,用于保证每个用户记忆空间独立隔离,避免上下文混淆。
(2)基于 CSI 动态挂载 NAS 的共享协同空间
用于承载跨实例共享、容量可扩展的协同数据,主要包括:
- Skills 与工作流资产:如自定义脚本、插件、工作流定义等,可实现“一次开发、多实例复用”,使多个 MaxClaw 实例能够实时访问最新版本的数据与逻辑。
- 长期 Memory 与备份数据:企业需要保存更大规模的长期数据时,可将相关文件扩展至 NAS 存储,同时支持对重要状态数据进行备份归档。
(3)基于 PolarDB 与 Tair 的业务结果数据与缓存存储空间
用于承载结构化业务数据、高频缓存数据以及状态索引信息,主要包括:
- 业务结果数据:Agent 生成的结果经业务层完成协议转换与展示适配后,可通过 MySQL Plugin 持久化写入 PolarDB,作为前端展示、结果查询及业务系统集成的数据来源。
- 缓存与状态索引数据:通过 Tair 提供高性能缓存与状态索引能力,加速高频访问场景下的状态读取,并支撑任务续接、上下文恢复和执行链路快速重建。
规模化运维:统一控制面让海量 Agent 真正可管可运维
MaxClaw 不再沿用单机工具式运行模式,而是基于阿里云云原生架构构建统一控制面,将 Agent 架构重构为具备统一接入、统一编排、统一治理能力的企业级 Agent 平台,进而推动 Agent 从试点验证走向生产级规模化落地。
(1)基于 ACK 的统一控制面
ACK 负责承载统一接入层与业务控制层,集中处理消息分发、任务编排、策略下发、状态管理和运行观测等核心能力。通过这种方式,MaxClaw 将原本分散在单实例中的运行逻辑上收为平台能力,使企业能够从“管理单个 Agent 进程”升级为“管理一套可编排的 Agent 平台”。
(2)基于 ACS Agent Sandbox 的执行面调度
在执行侧,ACS Agent Sandbox 负责根据任务请求动态拉起、分配和回收沙箱实例,使 Agent 的运行不再绑定于固定节点或固定环境,而是能够通过统一调度实现弹性承载。这样一来,无论是单个实例的故障恢复,还是大规模实例的批量部署与回收,都可以在平台层完成,而无需人工逐点维护。
资源治理:弹性调度让 Agent 跑得稳也跑得省
针对“低谷空转、高峰抢占、整体利用率低”问题,MaxClaw 基于阿里云云原生架构搭建起一整套面向 AI Agent 工作负载特征的资源治理机制,构筑起兼具性能、弹性与可靠性的 Agent 运行底座。
(1)性能:容器启动时间从数十秒降至毫秒级
为满足产品快速响应的要求,ACS Agent Sandbox 通过自定义模板预热机制,将 OpenClaw 运行环境所需的镜像、依赖和配置预加载至缓存,并结合 MicroVM 轻量虚拟化能力,实现 20-40ms 的极速实例供给。相较于传统容器数秒至数十秒的冷启动,这种方式显著降低了实例拉起时延,减少用户感知等待时间。
(2)弹性:最高15,000沙箱/分钟的大规模弹性供给
面对海量并发和波峰波谷问题,ACS Agent Sandbox 支持最高15,000沙箱/分钟的大规模弹性供给。任务发起时按需创建、任务结束后自动释放,使资源能够围绕任务密度动态伸缩。
(3)可靠性:在弹性调度中保障任务连续性
ACS Agent Sandbox 通过独占 MicroVM 沙箱、独立 ESSD 云盘、独立弹性网卡以及运行时 Checkpoint 能力,构建起面向任务连续性的运行保障机制。即使在扩缩容、网络波动或实例迁移过程中,任务状态仍可恢复、执行链路仍能保持连续,避免了因底层资源变化导致的用户体验中断。
展望未来:从架构共建到生态共赢
解决了“企业级 Agent 落地”的架构问题,下一阶段阿里云将与 MiniMax 共同围绕 MaxClaw 系统能力优化方向持续探索:
全栈资源调度能力持续演进:面向波动负载优化资源效率
面向 AI Agent “长驻留、强波动、突发执行”的特点,未来阿里云 Agent Infra 将持续增强计算、存储、网络与安全的一体化资源调度能力。通过休眠唤醒、秒级升降配和预测式弹性供给,实现资源按任务阶段精准分配,在保障体验与稳定性的同时,进一步降低大规模运行下的资源空耗与持有成本。
AI 原生数据存储底座持续演进:面向海量状态增强弹性能力
未来双方将持续推进数据分层与存储解耦,通过块存储 EBS 的快照预热、快速克隆等能力,提升大规模并发场景下的启动与唤醒效率;同时结合云端记忆检索与知识存储能力,突破本地文件检索瓶颈,构建面向 AI Agent 的弹性扩展、低时延、低成本的数据存储体系。
全生命周期运维能力持续演进:面向生产环境提升稳定性与可控性
围绕企业生产环境对稳定性和可运维性的要求,未来 ACS Agent Sandbox 将持续完善备份恢复、原地重启和渐进式升级等能力,实现关键数据可回溯、异常进程可秒级自愈、版本演进可灰度可回滚。稳定性也将不再只是“系统不宕机”,而是进一步演进为“状态不丢失、服务不中断、升级可控制”的全生命周期保障能力。