本文讨论的Agent设计规范,预设的场景是:开放域、多规则交叉、高风险的通用认知Agent。
如果你的Agent只需在一个封闭域中完成简单任务(如单一API的调用封装、固定模板的文本生成),部分规范可能过于严格。但如果你要求Agent具备在复杂环境下独立做判断、跨域推理、结论需被外部信任的能力——以下框架不做妥协。
引言
认知这个词被用滥了。它被等同于"知道得多"、"能讲出道理"、"有深度思考的习惯"。但这些都只是认知的表象,不是本质。
真正的高认知能力,解剖到最底层,只有一句话:
在真实信息的基础上推演规则。
这个定义拆成三步,每一步都对应一个工程问题:
信息是否真实? → Agent如何保证认知原料不被污染
规则如何推演? → Agent需要多广的知识、多深的推理
结论怎么验证? → Agent如何知道自己推对了还是推错了
以下逐条展开。
第一章:地基——真实信息是第一优先级
所有认知的起点,不是逻辑,不是思维模型,是信息本身。
信息如果是错的,推演得再漂亮也只是精致的错误。在讨论任何认知方法论之前,我们必须回答一个问题:你依据的信息,是真的吗?
这个问题在今天比任何时候都尖锐。信息爆炸恰恰意味着信息质量下降——噪音越大,真实信号的获取成本越高。大多数人的认知输在第一步:他们依据的信息从一开始就是错的。
映射到Agent设计:
Agent的认知能力,首先不取决于它调用了多大的模型,而取决于它的第一性规则——是基于现实进行推演(从真实数据向外扩散),还是基于大模型的内部概率分布进行猜想。
后者不是推理,是"听起来合理的文本生成"。前者才是认知。
因此设计规范第一条:
规范一:Agent的核心认知流程必须是"从真实信息出发的规则推演",而非"从参数记忆中生成"。所有决策类任务的入口必须经过真实数据检索层。
有一个常见的对抗论点:LLM的参数记忆在很多场景下已经足够准确,何必多此一举加检索层?答案是:不可控。
参数记忆的准确率是统计性的——95%的情况下是对的,但你永远不知道哪5%是错的。对于决策型Agent,"大多数时候正确"不是一个可接受的工程指标。Agent需要知道自己依据的是哪条数据、这条数据从哪里来、可信度如何。这些元信息,参数记忆给不了你。
关于"真实"的补充说明: 信息的多源冲突是一个真实存在的技术问题。当来自不同信源的真实数据指向相反结论时,Agent需要一套裁决机制——基于来源可信度评级、时效性权重和逻辑一致性检验的冲突解决系统。单点可信不是工程可信,冲突时能裁决才是。
第二章:规则分析的两个支柱——知识的广度与思维的深度
有了真实信息,下一步是推演。
推演不是联想,不是类比,是用已知的规则推导出新的结论。这个过程需要两根支柱。
第一根支柱:知识的广度。
不是"什么都懂一点"的广度,而是与当前问题相关的学科规则覆盖率。
一个跨域问题——比如"在监管趋严的市场中如何定价"——同时涉及:供需弹性(经济学)、法律合规(法学)、消费者心理(认知心理学)、博弈策略(博弈论)。只用一门学科的知识去推演,必然失真。
但广度必须有边界。没有边界的检索不是求知,是迷失。检索的范围必须由问题的定义来约束。
第二根支柱:思维的深度。
深度本质上是推理的精准度——推理链的长度与链上断裂频率的比值。
当一门学科的知识被完整记录,且规则之间的优先级有明确的排序时,规则相互作用可以推导出唯一解。这在形式化程度高的领域(数学、经典物理)已被验证——给定完备公理体系,推理链条的每一步都是确定的。
对于形式化程度较低的领域(经济学、社会学、管理学),规则本身在演化,且存在大量隐含规则。这意味着Agent不仅要应用规则,还需要发现规则的能力——从观测数据中反推规则的结构。
映射到Agent设计:
规范二:Agent的知识体系应当采用"分层专精"架构——多个专才Agent分别掌握不同领域的完备规则库,再由协调层根据问题定义划定检索边界。知识广度由Agent集群提供,思维深度由单体Agent的领域完备性保证。
"全才Agent"是一个诱人的工程目标,但在现有技术条件下它是一个陷阱。一个Agent试图覆盖所有领域,结果是每个领域都只到"听起来有道理"的深度,而不是"推演到唯一解"的深度。正确的做法是:多个专才Agent + 一个路由协调层。
规范三:每个专才Agent的规则库必须包含一个显式声明的优先级排序表。当规则冲突时,Agent依据优先级进行裁决。
这是对"唯一解"假说的工程补充。规则优先级不存在,唯一解就是伪命题。这个优先级排序表是Agent设计文档中不可或缺的一部分。
第三章:裂缝处理——观测验证闭环
这一章是框架中最关键、也最容易被忽略的部分。
物理世界有一个其他知识域不具备的优势:它总是遵守客观、真实、存在的规律。 推演结论是否符合现实,用实际观测一测便知。
这个朴素原理在Agent架构中对应一套设计机制:独立验证回路。
当Agent产出结论时,这个结论不应该被直接接受。应该有一个或多个独立的验证Agent启动——从不同的数据源出发,走不同的推理路径,检验结论的一致性。
"独立"是关键。验证Agent如果和产出Agent共享了相同的数据管道或推理逻辑,验证就没有价值。验证必须从不同起点出发,走不同路径,最终看能否殊途同归。
规范四:Agent必须内置独立的验证回路。每个重要结论产出后,自动触发验证Agent——使用不同数据源、不同推理路径进行交叉验证。验证结果作为结论的附加元数据输出。
关于"重要结论"的定义: 验证有成本。我们建议采用风险分级机制——高风险结论(涉及重大资源分配、安全攸关、法律后果的)走完整验证;低风险结论(信息查询、常规分类的)走轻量验证。分级标准由业务场景定义,在Agent设计文档中显式声明。
规范五:Agent在面对复杂问题时,应自动识别并设置多维度观测指标——直接指标(衡量结论本身)、代理指标(当下无法直接观测时用关联变量代替)和负向指标(结论为假时应出现的现象)。
观测点的选择决定了你能看到什么。观测点设错了——比如只观测短期效应而忽略长期影响——验证结论可能是假阳性。观测点设计本身需要方法论支持,不是随意选的。
关于"无法验证"的处理:
当一个结论在当下无法被观测验证——"这个市场趋势将在两年后显现"——Agent不能因此不输出结论。应该做的是:输出带置信度的结论。 置信度评分包含三个维度:数据完整性评分、规则完备性评分、可验证性评分(当前能否被观测检验)。这样用户面对一个无法立即验证的结论,也能理解其可靠程度。
结语:认知是系统工程
梳理下来,高认知的本质——无论对于人还是对于Agent——从来不是一个天赋问题,而是一个系统工程问题。
它的结构是:
真实信息输入(强制检索层,确保原料真实)
规则推演(广度+深度,分层专精+优先级排序)
验证闭环(独立验证Agent + 多维度观测点 + 风险分级)
置信度输出(透明化的结论与局限说明)
每一步都有对应的架构规范,每一步都需要被明确地设计、实施、验证。
最后,所有规范的底层有一个根基:Agent的"客观性"不是天然属性,是需要被设计的。 LLM作为基座天然继承了训练数据中的认知偏差。对抗这些偏差的唯一手段,是在架构层建立信息纪律——强制检索、规则优先、独立验证。
这不是让Agent更"聪明"的问题。
这是让它更可靠的问题。