什么是 Agent ?
在最抽象的层面,Agent(智能体/代理)指的是一个能够感知其环境,并基于感知到的信息采取行动,以实现特定目标的自主实体。
这个定义里有四个关键词,构成了Agent的四大核心能力:
- 感知
- Agent必须能接收来自环境的信息。这可以是真实的物理世界,也可以是数字虚拟世界。
- 例子:
- 机器人:通过摄像头、激光雷达、麦克风感知。
- 软件Agent:通过API调用、读取数据库、接收用户输入来感知。
- 聊天机器人:通过你输入的文本感知。
- 思考/决策
- 这是Agent的“大脑”。它处理感知到的信息,进行推理、规划,并决定下一步该做什么。
- 这个“大脑”的复杂度各不相同:
- 简单反射型:基于一套固定的“如果-那么”规则。例如,恒温器如果温度低于20度,就启动加热。
- 目标驱动型:它不仅反应,还会规划达成目标的路径。例如,导航软件不仅要找到路,还要找到“最快”的路。
- 学习型:它的决策能力会随着经验和数据而不断进化。这是当前最前沿的领域。
- 行动
- Agent必须有改变环境的能力。只有思考和感知而不行动,就成了一个被动的观察者。
- 例子:
- 机器人:移动轮子、操控机械臂。
- 软件Agent:发送邮件、修改数据库、调用另一个API。
- AI Agent:生成文本回复、执行一段代码、预订一张机票。
- 目标
- Agent的行动不是随机的,而是为了达成某个目标。这是Agent区别于一个简单程序的关键。
- 目标可能很简单(如保持房间恒温),也可能很复杂(如“最大化公司本季度利润”)。AI Agent的强大之处,就在于它能理解用自然语言描述的、模糊的、复杂的目标,并自己分解执行。
用一个简单的类比:
想象一个自动驾驶汽车。
- 感知:摄像头、雷达、GPS感知路况、行人、交通信号。
- 思考/决策:规划从A到B的路线,决定何时加速、刹车、变道以安全准时到达。
- 行动:控制方向盘、油门和刹车。
- 目标:安全、高效地将乘客送达目的地。
Agent的核心谱系:从简单到智能
为了更好理解,我们可以把所有Agent看作一个能力光谱:
1. 简单反射型Agent
- 决策方式:基于硬编码的条件-动作规则。没有记忆,不参考历史。
- 典型例子:自动门(感应到人-打开)、邮件自动过滤器(来自某人-移入垃圾箱)。
- 局限:完全无法处理规则之外的新情况。
2. 有状态的模型型Agent
- 决策方式:拥有关于“世界是如何运作”的内部模型。它能记住状态,并理解其行为的后果。
- 典型例子:AlphaGo下棋。它有一个棋盘状态的模型,并能推演“如果我下这里,对手可能会下哪里,最终能否赢”。
- 进步:具备了一定的推演和规划能力,但仍限于特定、封闭的环境(如棋盘)。
3. 基于目标的Agent
- 决策方式:不仅知道行动后果,还能为了达到“目标”而主动规划一系列行动。
- 典型例子:现代GPS导航。它的目标不是“找条路”,而是“找最快/最省油的路”,并会为了这个目标规划出复杂的路线序列。
4. 基于效用的Agent
- 决策方式:当存在多个可能实现目标的路径或相互冲突的目标时,它能用一个“效用函数”来量化不同结果的“幸福度”或“偏好”,然后选择得分最高的那个。
- 典型例子:一个旅行预订Agent。目标不仅是“买到票”,还要综合权衡“价格最低”、“中转时间短”、“航空公司偏好”等多个效用,做出最优选择。
5. 学习型Agent
- 决策方式:这是最高级的形态。它能通过经验自动改进其感知、决策和行动能力。它包含一个“评判器”来评估行动好坏,一个“学习器”来更新系统。
- 典型例子:
- 推荐算法:根据你的点赞/划过行为,不断学习你的偏好。
- AI Agent:这正是下一节要讲的核心。
大语言模型时代下的 AI Agent
这是目前最炙手可热的概念。当人们现在讨论“Agent”时,绝大多数情况指的就是这个。
AI Agent = 大语言模型 + 规划能力 + 记忆 + 工具使用
它把一个大语言模型(LLM,如GPT-4)作为其核心“大脑”和推理引擎,并装备上必要的组件,使其能够自主地完成复杂的、多步的任务。其架构如下:
我们来拆解这个架构:
- Agent核心(大脑)—— 大语言模型
- 角色:不再是简单的文本生成器,而是作为核心的推理引擎。
- 能力:理解复杂指令、分解任务、生成计划、编写代码、总结文本、基于上下文进行逻辑推理。
- 规划与行动模块
- 子目标分解:面对一个宏大目标(如“策划一场旅行”),Agent能自动将其分解为“查机票、订酒店、规划行程、查天气、打包清单”等子任务。
- 反思与迭代:优秀的Agent具备自我纠错能力。如果某一步行动失败(如某个API调用失败),它会分析原因,并尝试另一种方法,而不是卡死。
- 思维链与决策树:Agent会在内部探索多条可能的行动路径,预估其后果,然后选择最优路径。这就像一个内化的“头脑风暴”过程。
- 记忆模块
- 短期记忆:当前任务的上下文,比如多轮对话历史。受限于LLM的上下文窗口长度。
- 长期记忆:超越单次会话的外部存储,通常使用向量数据库实现。Agent可以将重要知识、用户偏好存入长期记忆,并在未来任务中按需检索。例如,它记得“用户喜欢靠过道的座位”和“对花生过敏”。
- 工具使用能力
- 这是AI Agent区别于纯粹聊天机器人的关键。LLM本身无法与外部世界交互,但Agent可以。
- 它可以学会调用各种工具(API)来获取信息或执行操作:
- 搜索工具:实时获取最新信息。
- 代码解释器:执行代码,处理数据,画图表。
- 数据库/文档查询工具:访问企业内部私有知识库。
- 具体应用API:发邮件、创建日程、操作电商平台下单等。
一个完整的AI Agent工作流程示例:
目标:“帮我研究一下最近人工智能在蛋白质折叠方面的重大突破,并把关键发现用中文总结成报告,发到我的邮箱。”
- 感知与理解:Agent接收指令,理解目标是“研究、总结、发送邮件”。
- 任务分解与规划:
- 子任务1:搜索“2024-2025 AI 蛋白质折叠 重大突破”。
- 子任务2:访问几个关键论文的摘要页或新闻网站,获取详情。
- 子任务3:汇总信息,用中文生成结构化的Markdown报告。
- 子任务4:调用邮件API,将报告发送给
user@example.com。
- 执行与工具调用:
- 它调用搜索API,得到一堆结果列表。
- 它调用网页抓取/阅读工具,逐个分析排名靠前的结果内容。
- 它整理出一份报告草稿。
- (内部反思)它觉得还缺少点权威性,又去调用学术数据库工具,找到一篇最新的《Nature》论文摘要加入报告。
- 它完成最终报告。
- 行动与输出:
- 它调用你的邮箱API,填好收件人、主题和正文,点击发送。
- 最后回复你:“已为你完成研究,报告已发送至你的邮箱,请注意查收。”
这就是一个经典的AI Agent应用。
总结
Agent是一个历史悠久且内涵丰富的概念,其核心是感知-思考-行动的自主循环。这个循环从简单的恒温器,到复杂的AlphaGo,一路演进到了今天由大模型驱动的、能够使用工具和记忆的、解决开放式任务的AI Agent。
面试回答
我觉得 Agent 简单来说,就是一个能自己‘动脑子干活’的 AI 程序。
它和普通聊天的 ChatGPT 不一样。ChatGPT 是你问一句,它答一句;但 Agent 更像一个实习生,你给它一个目标,它会自己拆步骤、用工具、试错,最后把结果给你。
核心就三个东西:
- 大脑:一个大模型,负责规划和做决定;
- 感知:能看懂当前的状态或用户输入;
- 行动:能调用工具,比如查天气、写代码、查数据库、点按钮。
举个例子,你跟 Agent 说‘帮我订下周去上海的机票’。它会自己:先查日历 → 比较航班价格→问你确认时间 → 然后下单。中间不用你一步步教。
所以总结一句话:Agent = LLM + 记忆 + 规划 + 工具调用