让长时运行的 AI 智能体真正“持续工作” ——基于 Anthropic 实验的工程化方法总结

简介: Anthropic 提出“初始化+编码”双智能体机制,破解长时任务失败难题:初始化智能体构建稳定环境(功能列表、脚本、git、进度日志);编码智能体每次仅实现一个功能,辅以端到端测试与git回溯,实现小步快跑、持续可靠推进。(239字)

背景:为什么长时智能体难以成功?

随着大模型能力提升,越来越多团队希望让 AI 承担跨越数小时甚至数天的任务,例如:

  • 构建完整 Web 应用
  • 持续调试系统
  • 多轮研究与分析
  • 长期自动化工程任务

但现实是:只要任务跨越多个上下文窗口,智能体就会出现遗忘、混乱、重复劳动甚至自我误导。
典型失败包括:

  • 一次性做太多(One-shot) → 上下文爆炸、代码半成品
  • 过早宣布完成 → 忽略大量未完成功能

这些问题本质上来自:
模型无法在跨会话的长期任务中保持稳定、可追踪的进展。

Anthropic 是如何解决这个问题的?

Anthropic 提出了一套非常工程化的解决方案:“初始化智能体 + 编码智能体”双智能体机制。

1. 初始化智能体(Initializer Agent)

  • 生成完整功能列表(200+ 项)
  • 创建 init.sh(启动环境)
  • 创建 claude-progress.txt(进度日志)
  • 初始化 git 仓库
    它的目标是:为未来所有会话建立一个稳定、可重复的开发环境。

2.编码智能体(Coding Agent)

每次会话只做一件事:

  • 选择一个未完成功能
  • 实现它
  • 测试它
  • 写 git commit
  • 更新进度文件

它的目标是:小步快跑、持续推进、永不破坏环境。

智能体每次会话都做了什么?

每次编码会话开始时,智能体会自动执行:

1.读取环境状态

  • pwd 查看目录
  • 阅读 git log
  • 阅读 claude-progress.txt
  • 阅读功能列表 JSON

2.启动项目

  • 运行 init.sh
  • 启动开发服务器

3.自检

  • 使用 Puppeteer MCP 做端到端测试
  • 确保环境干净、可运行

4.实现功能

  • 选择一个未完成功能
  • 编码、测试
  • 写 git commit
  • 更新进度文件

如果出现问题:

  • 自动 git revert 回到稳定状态

关键:哪些机制最有效

1. 功能列表是最重要的锚点

它让模型:

  • 不会一次性做太多
  • 不会过早宣布完成
  • 不会忘记任务范围
  • 不会破坏结构化数据

JSON 格式尤其稳定。

2. 增量式开发比模型能力更重要

长时任务的关键不是“聪明”,而是:

  • 小步快跑
  • 稳定推进
  • 保持环境干净

3. 端到端测试比单元测试更可靠

模型写单元测试容易漏掉关键问题。
但通过浏览器自动化测试:

  • 能发现 UI 逻辑错误
  • 能捕捉交互问题
  • 能模拟真实用户行为

显著提升质量。

4. git 是智能体的“外部记忆”

git log + 进度文件让模型能:

  • 快速理解当前状态
  • 避免重复劳动
  • 追踪历史决策
    这是跨会话最可靠的“记忆机制”。

总结:如何让智能体真正持续工作?

Anthropic 的实验告诉我们:
长时智能体的关键不是更强的模型,而是更好的工程机制。

要让智能体在多轮会话中持续推进任务,需要:

✔ 初始化智能体:建立稳定环境
功能列表、脚本、进度文件、初始 git。

✔ 编码智能体:增量式推进
每次只做一个功能,保持环境干净。

✔ 强制端到端测试
确保功能真正可用。

✔ git + 进度文件作为外部记忆
让智能体能跨会话理解项目状态。

目录
相关文章
|
14天前
|
人工智能 搜索推荐 测试技术
国家开始支持一人公司了,我做了一年的感想
深圳最高补贴 1000 万,OPC 写进政府工作报告。而我已经一个人做了快一年——没补贴没社区,用 AI 从零做了一个 SaaS。政策是好事,但真正的门槛不是工具,是持续执行力。
|
4天前
|
人工智能 IDE API
阿里云百炼Coding Plan 显示售罄抢不到怎么办?GLM-5等模型是全参数满血版的吗?
阿里云百炼Coding Plan提供GLM-5、Qwen3.5-Plus等**满血原版模型**(非量化阉割),仅计费方式不同。抢购建议直选Pro版+卡准每日9:30补货。若求稳,推荐直接使用百炼平台——开通即用、新用户赠100万Tokens,模型一致、按量付费更灵活。
|
2月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
25054 164
|
安全 机器人 API
简单几步,钉钉机器人秒变通义千问对话机器人
通过阿里云计算巢AppFlow平台,无需编码,只需简单几步,即可将钉钉机器人转化为通义千问对话机器人。首先在灵积模型服务平台获取API Key,然后在AppFlow中配置连接器,授权并保存Webhook Url。在钉钉中创建自定义机器人,选择Outgoing功能,填写签名和Webhook地址。最后,@机器人即可开始对话。此外,还提供了通过钉钉开放平台创建机器人的步骤。AppFlow简化了集成过程,加速了企业自动化服务流程。
1291 0
|
13天前
|
人工智能 算法 搜索推荐
告别空洞的 AI,我做了一个拥有“灵魂”的探险文案系统
这是一款融合AI效率与人文温度的“无限文案引擎”:基于20+维度自然/城市词库与诗意句式骨架,支持零代码个性化配置、断网不丢数据、一键生成千万级不重样文案,并可导出分享灵感库。
135 4
|
存储
13-iOS消息转发机制以及常用场景
13-iOS消息转发机制以及常用场景
375 0
|
2月前
|
人工智能 安全 Linux
2026年OpenClaw(Clawdbot) Linux部署:本地搭建+ZeroNews访问+云上部署教程
2026年初,OpenClaw(前身为Clawdbot)凭借“私有化运行+全权限实操”的创新定位,迅速成为AI领域的现象级开源项目。这款被称为“真正能做实事的AI”的工具,打破了传统聊天机器人的功能局限,可在本地设备或服务器上独立运行,通过WhatsApp、Telegram等常用聊天软件接收指令,完成文件读写、邮件管理、系统运维等实操任务,所有数据本地存储,隐私安全性拉满。
4274 9
|
3月前
|
数据采集 人工智能 API
【实战技巧】DeepSeek 手机版表格导出全攻略:从“复制乱码”到“一键转Excel”的终极解决方案
DeepSeek生成表格后导出难?本文详解三大实用方法:1)原生复制法,一键粘贴至WPS/飞书自动识别;2)第三方工具如DS随心转,秒转Excel或高清长图;3)开发者可用API+Python批量自动化处理。适配不同场景,助你高效办公,建议收藏!
2277 0
|
2天前
|
机器学习/深度学习 存储 人工智能
大模型应用:批量文档摘要与分类实践:本地合同、报告数据处理与导出.70
本方案基于Qwen 1.5 7B大模型,实现本地化批量文档处理:自动读取Word/PDF,经TextSplitter智能分块、Schema引导式提示,生成标准化摘要与多标签分类,最终导出CSV。全程离线运行,保障敏感数据安全,显著提升合同、报告等高频文档的处理效率与准确性。
90 16
|
11月前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
4861 171

热门文章

最新文章