我们来说说到底什么是 agent ？-阿里云开发者社区

我们来说说到底什么是 agent ？

2026-05-18 257

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我是小假期待与你的下一次相遇 ~

什么是 Agent ？

在最抽象的层面，Agent（智能体/代理）指的是一个能够感知其环境，并基于感知到的信息采取行动，以实现特定目标的自主实体。

这个定义里有四个关键词，构成了Agent的四大核心能力：

感知

Agent必须能接收来自环境的信息。这可以是真实的物理世界，也可以是数字虚拟世界。
例子：

机器人：通过摄像头、激光雷达、麦克风感知。
软件Agent：通过API调用、读取数据库、接收用户输入来感知。
聊天机器人：通过你输入的文本感知。

思考/决策

这是Agent的“大脑”。它处理感知到的信息，进行推理、规划，并决定下一步该做什么。
这个“大脑”的复杂度各不相同：

简单反射型：基于一套固定的“如果-那么”规则。例如，恒温器如果温度低于20度，就启动加热。
目标驱动型：它不仅反应，还会规划达成目标的路径。例如，导航软件不仅要找到路，还要找到“最快”的路。
学习型：它的决策能力会随着经验和数据而不断进化。这是当前最前沿的领域。

行动

Agent必须有改变环境的能力。只有思考和感知而不行动，就成了一个被动的观察者。
例子：

机器人：移动轮子、操控机械臂。
软件Agent：发送邮件、修改数据库、调用另一个API。
AI Agent：生成文本回复、执行一段代码、预订一张机票。

目标

Agent的行动不是随机的，而是为了达成某个目标。这是Agent区别于一个简单程序的关键。
目标可能很简单（如保持房间恒温），也可能很复杂（如“最大化公司本季度利润”）。AI Agent的强大之处，就在于它能理解用自然语言描述的、模糊的、复杂的目标，并自己分解执行。

用一个简单的类比：
想象一个自动驾驶汽车。

感知：摄像头、雷达、GPS感知路况、行人、交通信号。
思考/决策：规划从A到B的路线，决定何时加速、刹车、变道以安全准时到达。
行动：控制方向盘、油门和刹车。
目标：安全、高效地将乘客送达目的地。

Agent的核心谱系：从简单到智能

为了更好理解，我们可以把所有Agent看作一个能力光谱：

1. 简单反射型Agent

决策方式：基于硬编码的条件-动作规则。没有记忆，不参考历史。
典型例子：自动门（感应到人-打开）、邮件自动过滤器（来自某人-移入垃圾箱）。
局限：完全无法处理规则之外的新情况。

2. 有状态的模型型Agent

决策方式：拥有关于“世界是如何运作”的内部模型。它能记住状态，并理解其行为的后果。
典型例子：AlphaGo下棋。它有一个棋盘状态的模型，并能推演“如果我下这里，对手可能会下哪里，最终能否赢”。
进步：具备了一定的推演和规划能力，但仍限于特定、封闭的环境（如棋盘）。

3. 基于目标的Agent

决策方式：不仅知道行动后果，还能为了达到“目标”而主动规划一系列行动。
典型例子：现代GPS导航。它的目标不是“找条路”，而是“找最快/最省油的路”，并会为了这个目标规划出复杂的路线序列。

4. 基于效用的Agent

决策方式：当存在多个可能实现目标的路径或相互冲突的目标时，它能用一个“效用函数”来量化不同结果的“幸福度”或“偏好”，然后选择得分最高的那个。
典型例子：一个旅行预订Agent。目标不仅是“买到票”，还要综合权衡“价格最低”、“中转时间短”、“航空公司偏好”等多个效用，做出最优选择。

5. 学习型Agent

决策方式：这是最高级的形态。它能通过经验自动改进其感知、决策和行动能力。它包含一个“评判器”来评估行动好坏，一个“学习器”来更新系统。
典型例子：

推荐算法：根据你的点赞/划过行为，不断学习你的偏好。
AI Agent：这正是下一节要讲的核心。

大语言模型时代下的 AI Agent

这是目前最炙手可热的概念。当人们现在讨论“Agent”时，绝大多数情况指的就是这个。

AI Agent = 大语言模型 + 规划能力 + 记忆 + 工具使用

它把一个大语言模型（LLM，如GPT-4）作为其核心“大脑”和推理引擎，并装备上必要的组件，使其能够自主地完成复杂的、多步的任务。其架构如下：

我们来拆解这个架构：

Agent核心（大脑）—— 大语言模型

角色：不再是简单的文本生成器，而是作为核心的推理引擎。
能力：理解复杂指令、分解任务、生成计划、编写代码、总结文本、基于上下文进行逻辑推理。

规划与行动模块

子目标分解：面对一个宏大目标（如“策划一场旅行”），Agent能自动将其分解为“查机票、订酒店、规划行程、查天气、打包清单”等子任务。
反思与迭代：优秀的Agent具备自我纠错能力。如果某一步行动失败（如某个API调用失败），它会分析原因，并尝试另一种方法，而不是卡死。
思维链与决策树：Agent会在内部探索多条可能的行动路径，预估其后果，然后选择最优路径。这就像一个内化的“头脑风暴”过程。

记忆模块

短期记忆：当前任务的上下文，比如多轮对话历史。受限于LLM的上下文窗口长度。
长期记忆：超越单次会话的外部存储，通常使用向量数据库实现。Agent可以将重要知识、用户偏好存入长期记忆，并在未来任务中按需检索。例如，它记得“用户喜欢靠过道的座位”和“对花生过敏”。

工具使用能力

这是AI Agent区别于纯粹聊天机器人的关键。LLM本身无法与外部世界交互，但Agent可以。
它可以学会调用各种工具（API）来获取信息或执行操作：

搜索工具：实时获取最新信息。
代码解释器：执行代码，处理数据，画图表。
数据库/文档查询工具：访问企业内部私有知识库。
具体应用API：发邮件、创建日程、操作电商平台下单等。

一个完整的AI Agent工作流程示例：
目标：“帮我研究一下最近人工智能在蛋白质折叠方面的重大突破，并把关键发现用中文总结成报告，发到我的邮箱。”

感知与理解：Agent接收指令，理解目标是“研究、总结、发送邮件”。
任务分解与规划：

子任务1：搜索“2024-2025 AI 蛋白质折叠重大突破”。
子任务2：访问几个关键论文的摘要页或新闻网站，获取详情。
子任务3：汇总信息，用中文生成结构化的Markdown报告。
子任务4：调用邮件API，将报告发送给user@example.com。

执行与工具调用：

它调用搜索API，得到一堆结果列表。
它调用网页抓取/阅读工具，逐个分析排名靠前的结果内容。
它整理出一份报告草稿。
（内部反思）它觉得还缺少点权威性，又去调用学术数据库工具，找到一篇最新的《Nature》论文摘要加入报告。
它完成最终报告。

行动与输出：

它调用你的邮箱API，填好收件人、主题和正文，点击发送。
最后回复你：“已为你完成研究，报告已发送至你的邮箱，请注意查收。”

这就是一个经典的AI Agent应用。

总结

Agent是一个历史悠久且内涵丰富的概念，其核心是感知-思考-行动的自主循环。这个循环从简单的恒温器，到复杂的AlphaGo，一路演进到了今天由大模型驱动的、能够使用工具和记忆的、解决开放式任务的AI Agent。

面试回答

我觉得 Agent 简单来说，就是一个能自己‘动脑子干活’的 AI 程序。

它和普通聊天的 ChatGPT 不一样。ChatGPT 是你问一句，它答一句；但 Agent 更像一个实习生，你给它一个目标，它会自己拆步骤、用工具、试错，最后把结果给你。

核心就三个东西：

大脑：一个大模型，负责规划和做决定；
感知：能看懂当前的状态或用户输入；
行动：能调用工具，比如查天气、写代码、查数据库、点按钮。

举个例子，你跟 Agent 说‘帮我订下周去上海的机票’。它会自己：先查日历 → 比较航班价格→问你确认时间 → 然后下单。中间不用你一步步教。

所以总结一句话：Agent = LLM + 记忆 + 规划 + 工具调用

我们来说说到底什么是 agent ？

什么是 Agent ？

Agent的核心谱系：从简单到智能

大语言模型时代下的 AI Agent

总结

面试回答

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

我们来说说到底什么是 agent ？

什么是 Agent ？

Agent的核心谱系：从简单到智能

大语言模型时代下的 AI Agent

总结

面试回答

热门文章

最新文章

相关电子书