swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发

简介: Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】

Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。

Swarm专注于使代理的协调执行轻量级、高度可控且易于测试。

它通过两个原始抽象:Agents和交接来实现这一点。一个Agent包含instructionstools,并且在任何时候都可以选择将对话交接给另一个Agent

这些原始抽象足够强大,可以表达工具和代理网络之间的丰富动态,允许您构建可扩展的、现实世界的解决方案,同时避免陡峭的学习曲线。

一、安装

需要Python 3.10+

pip install git+ssh://git@github.com/openai/swarm.git

或者

pip install git+https://github.com/openai/swarm.git

二、简易使用方法

from swarm import Swarm, Agent

client = Swarm()

def transfer_to_agent_b():
    return agent_b


agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus."
)

response = client.run(
    agent=agent_a,
    messages=[{
   "role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

三、为什么选择Swarm

Swarm探索了轻量级、可扩展且高度可定制的设计模式。类似于Swarm的方法最适合处理大量独立能力和难以编码到单个提示中的指令的情况。

Assistants API是寻找完全托管的线程和内置的内存管理和检索的开发者的一个很好的选择。然而,Swarm是一个教育资源,供对多代理编排感兴趣的开发者学习。Swarm(几乎)完全在客户端上运行,并且像Chat Completions API一样,在调用之间不存储状态。

四、运行Swarm

首先,实例化一个Swarm客户端(它内部只是实例化一个OpenAI客户端)。

from swarm import Swarm

client = Swarm()

client.run()

Swarm的run()函数类似于Chat Completions API中的chat.completions.create()函数——它接受messages并返回messages,并且在调用之间不保存任何状态。然而,它还处理代理函数执行、交接、上下文变量引用,并且可以在返回给用户之前进行多次轮流。

在其核心,Swarm的client.run()实现了以下循环:

  1. 从当前代理获取一个完成
  2. 执行工具调用并追加结果
  3. 如有必要,切换代理
  4. 如有必要,更新上下文变量
  5. 如果没有新的函数调用,返回

参数

参数 类型 描述 默认
agent Agent 要调用的(初始)代理。 (必需)
messages List 消息对象列表,与Chat Completions messages相同 (必需)
context_variables dict 额外的上下文变量字典,可供函数和代理指令使用 {}
max_turns int 允许的最大对话轮流次数 float("inf")
model_override str 一个可选字符串,用于覆盖代理使用的模型 None
execute_tools bool 如果为False,在代理尝试调用函数时中断执行并立即返回tool_calls消息 True
stream bool 如果为True,启用流式响应 False
debug bool 如果为True,启用调试日志 False

一旦client.run()完成(在可能对代理和工具进行多次调用之后),它将返回一个Response,其中包含所有相关的更新状态。具体来说,新的messages,最后一个被调用的Agent,以及最新的context_variables。您可以将这些值(加上新的用户消息)传递到下一次的client.run()执行中,以继续中断的交互——非常类似于chat.completions.create()。(run_demo_loop函数在/swarm/repl/repl.py中实现了完整的执行循环的一个示例。)

Response 字段

字段 类型 描述
messages List 在对话期间生成的消息对象列表。与Chat Completions messages非常相似,但有一个sender字段,指示消息来自哪个Agent
agent Agent 处理消息的最后一个代理。
context_variables dict 与输入变量相同,加上任何更改。

五、代理

一个Agent简单地封装了一组instructions和一组functions(以及一些额外的设置),并且有能力将执行交接给另一个Agent

虽然将一个Agent拟人化为“做X的人”是诱人的,但它也可以用来表示由一组instructionsfunctions定义的非常具体的工作流程或步骤(例如一组步骤、复杂的检索、单个数据转换步骤等)。这允许Agents被组合成一个由“代理”、“工作流程”和“任务”组成的网络,所有这些都由相同的原始表示。

Agent 字段

字段 类型 描述 默认
name str 代理的名称。 "Agent"
model str 代理使用的模型。 "gpt-4o"
instructions strfunc() -> str 代理的指令,可以是字符串或返回字符串的可调用。 "You are a helpful agent."
functions List 代理可以调用的函数列表。 []
tool_choice str 代理的工具选择,如果有的话。 None

指令

Agent instructions直接转换为对话的system提示(作为第一条消息)。在任何给定时间,只有活动Agentinstructions会出现(例如,如果有Agent交接,system提示将更改,但聊天历史不会。)

agent = Agent(
   instructions="You are a helpful agent."
)

instructions可以是常规的str,或者是返回str的函数。该函数可以选择接收一个context_variables参数,该参数将由传递给client.run()context_variables填充。

def instructions(context_variables):
   user_name = context_variables["user_name"]
   return f"Help the user, {user_name}, do whatever they want."

agent = Agent(
   instructions=instructions
)
response = client.run(
   agent=agent,
   messages=[{
   "role":"user", "content": "Hi!"}],
   context_variables={
   "user_name":"John"}
)
print(response.messages[-1]["content"])
Hi John, how can I assist you today?

功能

  • Swarm Agents可以直接调用Python函数。
  • 函数通常应该返回一个str(值将尝试被转换为str)。
  • 如果一个函数返回一个Agent,执行将被转移到该Agent
  • 如果一个函数定义了一个context_variables参数,它将由传递给client.run()context_variables填充。
def greet(context_variables, language):
   user_name = context_variables["user_name"]
   greeting = "Hola" if language.lower() == "spanish" else "Hello"
   print(f"{greeting}, {user_name}!")
   return "Done"

agent = Agent(
   functions=[greet]
)

client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Usa greet() por favor."}],
   context_variables={
   "user_name": "John"}
)
Hola, John!
  • 如果一个Agent函数调用有错误(缺少函数、错误的参数、错误),则会将错误响应追加到聊天中,以便Agent可以优雅地恢复。
  • 如果Agent调用了多个函数,它们将按顺序执行。

交接和更新上下文变量

一个Agent可以通过在function中返回另一个Agent来交接。

sales_agent = Agent(name="Sales Agent")

def transfer_to_sales():
   return sales_agent

agent = Agent(functions=[transfer_to_sales])

response = client.run(agent, [{
   "role":"user", "content":"Transfer me to sales."}])
print(response.agent.name)
Sales Agent

它也可以通过返回一个更完整的Result对象来更新context_variables。这也可以包含一个value和一个agent,以防您想要一个函数返回一个值,更新代理,并更新上下文变量(或三者的任何子集)。

sales_agent = Agent(name="Sales Agent")

def talk_to_sales():
   print("Hello, World!")
   return Result(
       value="Done",
       agent=sales_agent,
       context_variables={
   "department": "sales"}
   )

agent = Agent(functions=[talk_to_sales])

response = client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Transfer me to sales"}],
   context_variables={
   "user_name": "John"}
)
print(response.agent.name)
print(response.context_variables)
Sales Agent
{'department': 'sales', 'user_name': 'John'}

[!NOTE]
如果一个Agent调用多个函数来交接给一个Agent,只有最后一个交接函数将被使用。

函数模式

Swarm自动将函数转换为JSON模式,该模式传递给Chat Completions tools

  • 文档字符串被转换为函数的description
  • 没有默认值的参数被设置为required
  • 类型提示被映射到参数的type(默认为string)。
  • 不支持每个参数的描述,但如果只是在文档字符串中添加,应该可以类似地工作。(将来可能会添加文档字符串参数解析。)
def greet(name, age: int, location: str = "New York"):
   ""“向用户打招呼。在调用之前,请确保获取他们的姓名和年龄。

   参数:
      name:用户的姓名。
      age:用户的年龄。
      location:地球上最好的地方。
   ”"
   print(f"Hello {name}, glad you are {age} in {location}!")
{
   
   "type": "function",
   "function": {
   
      "name": "greet",
      "description": "Greets the user. Make sure to get their name and age before calling.\n\nArgs:\n   name: Name of the user.\n   age: Age of the user.\n   location: Best place on earth.",
      "parameters": {
   
         "type": "object",
         "properties": {
   
            "name": {
   "type": "string"},
            "age": {
   "type": "integer"},
            "location": {
   "type": "string"}
         },
         "required": ["name", "age"]
      }
   }
}

流式传输

stream = client.run(agent, messages, stream=True)
for chunk in stream:
   print(chunk)

使用与Chat Completions API流式传输相同的事件。参见process_and_print_streaming_response/swarm/repl/repl.py中的示例。

增加了两个新的事件类型:

  • {"delim":"start"}{"delim":"end"},每次Agent处理单个消息(响应或函数调用)时发出信号。这有助于识别Agent之间的切换。
  • {"response": Response}将在流的末尾返回一个Response对象,包含聚合的(完整的)响应,以方便使用。

六、总结

Swarm Agent框架的发布标志着多智能体系统开发的一个新阶段。通过优化智能体的协调、执行和测试流程,Swarm使得开发者能够更加高效地管理、互动多个AI智能体。虽然目前该框架仍处于实验阶段,但它为开发者探索多智能体系统提供了新的思路和工具。

目录
相关文章
|
14天前
|
人工智能 开发框架 安全
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。
236 69
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
96 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
4天前
|
人工智能 开发框架 自然语言处理
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
Eko 是 Fellou AI 推出的开源 AI 代理开发框架,支持自然语言驱动,帮助开发者快速构建从简单指令到复杂工作流的智能代理。
95 12
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
|
3天前
|
数据采集 人工智能 安全
1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化
在人工智能领域,大型语言模型(LLMs)的发展迅速,但如何提升其指令遵循能力仍是一大挑战。论文提出MATRIX-Gen,一个基于多智能体模拟的AI社会模拟器。MATRIX-Gen通过模拟智能体交互生成多样化的现实场景,不依赖预定义模板,从而合成高质量指令数据。它包括MATRIX模拟器和MATRIX-Gen指令生成器,能生成监督微调、偏好微调及特定领域的数据集。实验表明,使用MATRIX-Gen合成的数据集微调后的模型在多个基准测试中表现出色,显著优于现有方法。然而,该方法也面临智能体和场景规模对数据质量的影响等挑战。
44 33
|
15天前
|
人工智能 API
MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务
MMedAgent 是专为医疗领域设计的多模态AI智能体,支持多种医疗任务,包括医学影像处理、报告生成等,性能优于现有开源方法。
83 19
MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务
|
12天前
|
存储 人工智能 自然语言处理
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
AI Agent以自主性和智能化为核心,适合复杂任务的动态执行;而SaaS工具则注重服务的完整性和易用性,适合标准化业务需求。
69 14
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
|
10天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
51 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
6天前
|
人工智能 API UED
AI智能体再进化,工作流怎么玩?阿里云百炼上手教程
本次分享由讲师林粒粒呀介绍如何快速制作AI智能工具,特别是利用阿里云百炼平台创建工作流。通过简单的拖拽操作,小白用户也能轻松上手,实现从PPT主题到大纲的自动生成,并能一次性生成多个版本。借助API和Python脚本,还可以将Markdown格式的大纲转换为本地PPT文件。整个流程展示了AI智能体在实际应用中的高效性和实用性,帮助用户大幅提升工作效率。
75 31
|
11天前
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
87 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
6天前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
87 21

热门文章

最新文章