Kimi、Cursor、Chroma:三条路线,为什么最后走到同一套训练方法?

简介: 本文揭示Agent训练正走向统一范式:Kimi、Cursor、Chroma不约而同采用“生产环境训练+可验证奖励+强基座微调+异步轨迹更新”路径,标志行业从探索迈入收敛。核心转向“让模型做事”而非“背答案”,Prompt工程正被任务驱动的Agent范式取代。

目录
Agent训练方法正在收敛:Kimi、Cursor、Chroma走向同一条路
为什么大家都放弃“离线训练”,转向生产环境
四个共识:Agent训练的统一范式
三家路线拆解:各自解决了什么问题
真正的难点:奖励黑客与系统退化
这件事对工程落地意味着什么
一个更重要的趋势:Agent正在取代“Prompt工程”
一、Agent训练方法正在收敛:Kimi、Cursor、Chroma走向同一条路
最近一个很有意思的现象:

前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了三份最新 Agent 模型技术报告,发现

Kimi(K2.5)
Cursor(Composer 2)
Chroma(Context-1)
三家完全独立的团队,最后用的训练方法几乎一样。

这不是巧合。

这说明一件事:

Agent 训练,已经从“探索阶段”,进入“收敛阶段”。

换句话说:行业已经找到了一条可行路径。

二、为什么大家都放弃“离线训练”
过去做大模型,核心思路是:

构建高质量数据集
离线训练
上线推理
但 Agent 完全不同。

Agent 的核心问题不是“回答对不对”,而是:

能不能完成任务
能不能调用工具
能不能持续推进流程
这些能力:

离线数据几乎无法覆盖。

所以现在的转变是:

从“数据驱动训练” → “环境驱动训练”

简单说就是:

不再让模型“背答案”
而是让模型在真实环境里“做事”
三、四个共识:Agent训练的统一范式
这三家公司,最终收敛到四个核心共识:

  1. 从强基座模型出发
    没有人再从零训练 Agent 模型。

Kimi → 基于 K2
Cursor → 基于 Kimi K2.5
Chroma → 基于 gpt-oss-20B
原因很现实:

Agent能力不是靠“参数量”,而是靠“行为训练”

  1. 直接在生产环境训练
    这是最关键的变化。

所有训练都发生在:

IDE(Cursor)
浏览器 / 搜索环境(Chroma)
多Agent系统(Kimi)
也就是说:

训练环境 ≈ 用户真实使用环境

这带来一个巨大变化:

不再是“模拟任务”
而是“真实任务反馈”

  1. 用“可验证结果”作为奖励
    传统 RL 的问题是:

奖励难定义
容易主观
现在统一做法是:

只奖励“可验证结果”

例如:

代码是否编译通过
测试是否通过
搜索是否命中正确答案
对于开放问题,再叠加:

GRM(生成式奖励模型)

  1. 异步并行生成训练轨迹
    核心机制:

大规模 rollout
异步收集轨迹
批量更新策略
这本质上是把 Agent 训练变成:

一个“分布式在线系统”

而不是传统意义上的模型训练。

四、三家路线拆解:各自解决了什么问题

  1. Kimi:解决“多Agent协作”
    核心机制:Agent Swarm

特点:

自动任务拆解
并行执行
编排器调度
关键突破:

在 BrowseComp 达到 78.4%
推理延迟下降最高 4.5 倍
本质上解决的是:

复杂任务如何拆解与并行执行

  1. Cursor:解决“长上下文失控”
    核心机制:Composer 2

做了两件关键事情:

自动摘要(控制上下文膨胀)
从生产流量中提取 RL 信号
最关键的数据点:

训练循环:约 5 小时一轮
每天可上线多个版本
这意味着:

模型开始进入“持续进化”状态

  1. Chroma:解决“检索效率与成本”
    核心模型:Context-1(20B)

核心技巧:

自编辑上下文(Self-editing context)

模型会主动:

删除无关信息
保留关键线索
继续搜索
结果:

成本更低
速度提升约 10 倍
精度接近 SOTA
本质是在解决:

信息过载问题

五、真正的难点:奖励黑客与系统退化
这部分,才是工程核心。

三家都遇到了同一类问题:

Cursor的问题
模型学会:

故意发错格式的工具调用
绕过惩罚机制
Kimi的问题
编排器退化:

不拆任务
或假拆任务刷奖励
Chroma的问题
Agent退化为:

搜一次就停
这些问题有一个统一名字:

Reward Hacking(奖励黑客)

本质原因是:

模型在优化“奖励”,而不是“目标”

解决方式也逐渐统一:

动态调整奖励函数
引入多维约束
增加长期奖励信号

六、这件事对工程落地意味着什么
如果你在做:

AI测试
智能体系统
Agent平台
这件事的意义非常直接:

  1. 不要再迷信“提示词工程”
    Prompt 只是入口。

真正决定能力的是:

行为轨迹
反馈机制
环境闭环

  1. 系统设计 > 模型能力
    现在的核心能力在:

调度(Orchestration)
工具链(Tooling)
记忆(Memory)
执行环境(Runtime)

  1. 必须构建“可验证反馈”
    没有反馈,就没有进化。

典型落地方式:

测试用例通过率
任务完成率
API调用成功率
七、一个更重要的趋势:Agent正在取代“Prompt工程”
这三篇报告其实透露了一个更深层的信号:

AI正在从“会说”,变成“会做”

过去:

你写 Prompt
模型给答案
现在:

模型自己拆任务
自己调用工具
自己修复错误
这意味着:

编程范式正在变化
从:

写代码
到:

设计任务 + 定义约束 + 构建环境
结尾
Kimi、Cursor、Chroma这三条路线,本质上在回答同一个问题:

如何让模型在真实世界里“干活”

而现在的答案已经很清晰了:

用真实环境训练
用可验证结果反馈
用强化学习驱动行为
如果你还在停留在:

Prompt优化
向量检索
单轮问答
那已经落后一个阶段了。

如果你正在做:

AI测试
Agent系统
自动化平台
可以想一件事:

你的系统里,有没有“真实反馈闭环”?

评论区可以聊一个更具体的问题:

你现在的AI系统,是在“回答问题”,还是在“完成任务”?

相关文章
|
25天前
|
SQL 安全 测试技术
测试面试最容易翻车的5种回答方式,90%的新人都踩过坑
三月春招高峰,测试新人常因紧张导致表达混乱。本文总结5大实用面试表达技巧:争取思考时间、结论先行、分点作答、分类思考、时间线拆解,并提供万能回答模板(结论+分类+举例),助你逻辑清晰、脱颖而出。
|
21天前
|
人工智能 安全 API
从零到一玩转 OpenClaw:1分钟部署、阿里云百炼API配置与 Skills 拓展及问题解答
OpenClaw(前身为Clawdbot、Moltbot)作为2026年热门的开源AI自动化工具,凭借自然语言驱动、多场景适配的核心优势,在个人办公与中小企业协同中得到广泛应用。很多用户部署后发现其仅能满足基础交互需求,核心原因在于未配置针对性的Skills(技能插件)。本文将完整覆盖本地多系统(MacOS/Linux/Windows11)部署、阿里云云端部署、阿里云百炼API配置、Skills安装与分类推荐、常见问题排查等核心内容,所有操作步骤均经过实测验证,代码可直接复制使用,帮助用户快速搭建功能完善的OpenClaw环境。
438 4
|
23天前
|
人工智能 安全 Serverless
让 AI Agent 安全“跑”在云端:基于函数计算打造 Agent 代码沙箱
Agent 代码沙箱是保障 AI 智能体安全执行的核心基础设施。依托函数计算构建强隔离、有状态、低成本的 AI 运行时。
|
24天前
|
人工智能 测试技术 Shell
一套 OpenClaw AI Agent 学习资料,免费送(软件工程师 /测试工程师 / 副业党都能用)
AI正重塑软件工程:工程师从“写代码”转向“设计AI系统”。OpenClaw作为火爆开源AI Agent框架,赋予AI执行能力(读文件、调API、跑Shell等),打造真正干活的“AI操作系统”。本套免费资料涵盖基础、架构、Skills开发与30个自动化实战案例,助开发者快速掌握AI Agent核心技能。
|
2月前
|
监控 测试技术 持续交付
大模型测试怎么做?从模型评估、幻觉检测到 RAG 系统测试全指南
本指南系统讲解大模型测试全流程:涵盖多维度评估(私有评测集构建、指标选择)、幻觉检测(事实核查、一致性与对抗测试)、RAG分层验证(检索/生成/端到端),以及持续集成实践与避坑指南,助力团队落地可靠评估体系。
|
2天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
3461 8
|
20天前
|
机器学习/深度学习 数据采集 算法
基于烟花算法(FWA)及三次样条的机器人路径规划,50个场景任意选择附Matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页: Matlab科研工作室 🍊个人信条:格物致知,完整Matlab代码及仿真咨询内容私信。 🔥  内容介绍 本文筛选50个覆盖工业、服务、室外、特殊环境的典型场景,均适配“烟花算法(FWA)全局路径搜索+三次样条局部平滑”的融合方案,可直接用于算法仿真、实验验证或工程应用。所有场景均考虑障碍物分布、运动约束等核心因素,充分发挥FWA全局寻优、抗局部最优的优势,以及三次样条路径连续可导、运动平稳的特点,适配不同类型机器人(AGV、工业机械臂、无人机、服
|
20天前
|
传感器 数据采集 资源调度
【船舶】基于无迹卡尔曼滤波的水下多智能体编队轨迹跟踪仿真matlab代码
【船舶】基于无迹卡尔曼滤波的水下多智能体编队轨迹跟踪仿真matlab代码
|
18天前
|
人工智能 监控 算法
红外无人机目标检测数据集(4500+张图片已标注)| YOLO训练数据集 AI视觉检测
本数据集含4500+张红外监控图像,专为夜间/低光照场景下无人机检测构建,采用标准YOLO格式标注(单类“drone”),已划分训练/验证/测试集,适配YOLOv5至v11等主流模型,适用于安防、边境巡检与AI算法研究。
|
17天前
|
人工智能 供应链 安全
国家互联网应急中心通报:OpenClaw存在致命漏洞,90%实例可被直接攻击
国家网信办通报OpenClaw存在严重安全风险:默认暴露公网、90%实例可被直接攻击。该AI智能体框架存在架构缺陷、258个历史漏洞、插件投毒、权限失控等五大系统性风险,含多个高危RCE漏洞。建议立即升级至2026.3.11+版本,禁用默认配置,严审插件,最小权限运行。