上周和几个做 AI Agent 搭建的同行吃火锅,桌上的话题从 “o1 的规划能力有多强” 聊到 “某低代码平台拖出来的 Agent 完成度能到 80%”,最后大家都沉默了 —— 那种 “核心技能正在贬值” 的焦虑,像锅里的热气一样绕着每个人。
入行两年,我从靠抠 ReAct 提示词吃饭,到现在要面对通用模型和低代码的双重夹击,这段时间的思考和踩坑,想跟掘金的朋友们唠唠。
先说说我们焦虑的本质:夹在中间的 “技术夹层”
我刚入行的时候,核心工作就是死磕提示词 —— 写几百字的思维链引导模型分步推理,用 ReAct 框架拆任务,当时觉得这就是门槛。但现在 o1、Claude 3.5 Sonnet 这类模型出来,原生规划能力直接内置,我之前花一周调的 “任务拆解提示词”,现在模型自己就能完成,那种 “我花了大量时间打磨的技能,突然被工具替代” 的挫败感,相信很多同行都懂。
更扎心的是低代码平台的普及。上个月有个客户找我,说自己用某平台拖了个客服 Agent,能处理 80% 的常见咨询,剩下的 20% 搞不定才来找我。我去看了下,确实,标准化的流程、通用的 RAG 召回,拖拽连线就能搞定,但涉及到他们内部的 “售后退款 SOP”—— 比如 VIP 客户的退款权限、跨部门审批的异常回滚、不同区域的合规校验,低代码的可视化操作就彻底卡壳了。如果我们还停留在 “套壳连线” 的层面,那真的没什么不可替代性。
破局的起点:先搞懂企业真正为 Agent 付的是什么钱
我之前也陷入过 “要让 Agent 更聪明” 的误区,直到有次客户跟我说:“我不管它能不能回答天文问题,我要它处理报销的时候,绝对不能错扣部门预算,绝对不能跳过合规校验。” 这句话点醒了我:企业付费的核心从来不是 “聪明”,而是 “有用且靠谱”。
我们的价值,恰恰是搞定低代码和通用模型覆盖不到的那 20%—— 从依赖模型概率输出的 “调优”,转向构建可落地的 “确定性工程”。这也是我最近半年一直在深耕的方向,分享三个我觉得最核心的实践:
- 把企业模糊的 SOP,拆成 Agent 能执行的 “确定性状态机”
大模型有通用推理,但没有企业专属的 “业务记忆” 和 “规则红线”;低代码只能覆盖标准化流程,但企业里真正复杂的业务,SOP 往往是模糊、非标准化的 —— 比如财务的跨部门预算扣减、供应链的多级异常回滚、法务的合规校验链。
去年我做一个财务预算 Agent,客户的 SOP 是半书面半口头的:“如果部门预算超了,先找部门经理审批,经理不在就走应急通道,审批通过后还要同步给财务和 HR 扣减对应额度,要是 HR 系统报错,得回滚之前的审批状态。” 这种模糊的规则,拖拽操作根本搞不定,我蹲在财务部门跟他们聊了一周,把所有潜规则挖出来,转化成了有限状态机(FSM):每个状态的触发条件、流转路径、异常处理都写死,比如 “经理审批超时 2 小时自动触发应急通道”“HR 系统返回错误码 A001 时,调用审批撤销接口并推送通知给财务”。这种对状态流转的严密控制,才是企业真正需要的 “靠谱”。 - 建一套能量化价值的全流程 Evals 体系
之前我跟客户汇报工作,只能说 “Agent 更聪明了”“回答更准确了”,客户半信半疑。直到我建了自动化评估体系,拿具体数据说话,情况才彻底改变。
现在我做项目的第一步,不是搭 Agent,是拉着业务方一起做 “黄金数据集”—— 比如客服场景就整理 1000 条真实用户问题和标准回答,财务场景就整理 500 条报销案例和合规结果。然后用 Ragas 测 RAG 的上下文召回率、相关性,用 TruLens 监控生成内容的幻觉率,再用 LLM-as-a-Judge 做自动化判分。上次迭代后,我给客户的报告是:“幻觉率从 22% 降到 7%,预算扣减准确率从 85% 提升到 99.5%,合规校验遗漏率降为 0”,客户直接加了二期预算。
当你的价值能被量化,就不再依附于通用模型的能力,而是建立在可验证的工程结果上。 - 给 Agent 加 “防呆系统”,把不确定性锁在边界里
大模型的输出是概率性的,但业务场景要求 100% 的确定性。我现在做 Agent 架构,核心就是设计各种 “防呆机制”:
用 Schema 强制 Agent 输出结构化 JSON,比如合同审查 Agent 必须返回包含「风险等级」「整改建议」「合规依据」的固定格式,要是输出不符合,直接打回重审;
高风险环节加 “人在回路”,比如涉及合同金额超过 100 万的,Agent 先初审,再推给法务人工确认,避免模型漏审;
给 Agent 加 “评论家角色”,输出前先自我校验:“是否符合公司合规红线?是否遗漏了业务规则?” 比如财务 Agent 处理报销时,先检查 “是否有合规凭证”“是否在预算周期内”,有问题就自动触发补件流程。
职业终局:不是被淘汰,是往两个方向 “升级”
最近和几个资深同行聊,大家都觉得 Agent 搭建师的终局不是被替代,而是分化成两个高端方向:
AI 业务架构师:我现在也在往这个方向靠 —— 用 70% 的业务理解 + 30% 的技术能力,帮企业设计全链路的 Agent 落地方案。比如零售行业,从用户咨询 Agent、售后 Agent 到库存 Agent 的联动,得懂零售的会员体系、库存周转逻辑,能测算投入产出比,设计人机协作的最优流程。这时候,懂行业合规、业务规则的人,比只会用工具的人值钱多了。
AI 系统工程师:聚焦 Agent 的工程化落地,用 70% 的工程能力 + 30% 的算法认知,解决性能、成本、稳定性问题。比如优化多 Agent 的通信协议,减少 Token 消耗,提升系统响应速度,设计高可用的 Agent 运行环境。我最近在研究怎么用 FSM 替代部分大模型的推理,降低成本的同时提升确定性,这也是个很有意思的方向。
给同样焦虑的同行几个行动建议
最后,分享三个我正在做的事,希望能帮到大家:
别再死磕提示词黑魔法了:我现在只在特定场景(比如复杂数学推理)花少量时间调提示词,更多时间泡在业务部门挖 SOP—— 提示词技巧迟早会被模型内化,但对业务规则的深度理解和系统拆解能力,短期内没人能替代。
把用户反馈做成数据闭环:每周拉业务方复盘用户问题,把异常案例整理成数据集,优化知识库和 Agent 的状态流转。比如上次客服 Agent 遇到 “客户要求跨区域换货” 的问题处理错了,我就把这个场景加到黄金数据集里,更新 SOP 的状态机,现在这个场景的处理准确率是 100%。
深耕企业数据治理:通用模型是标准化的,但企业的专属知识库才是 Agent 的 “核心大脑”。我最近在帮客户把散在 OA、CRM、本地文档里的业务数据,整理成结构化的知识库 —— 比如把财务的报销规则、法务的合同条款拆成可检索的知识节点,这才是别人抄不走的竞争力。
其实现在的焦虑,本质是行业从 “野蛮生长” 到 “理性落地” 的阵痛。早期靠信息差(懂提示词、会用框架)建立的优势没了,反而逼着我们沉下去做真正有价值的事。工具越简单,越考验我们能不能搞定那 20% 的复杂问题,能不能给客户带来确定性的结果 —— 而这些,才是真正的护城河。