不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

简介: 近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。

在人工智能领域,使用大型语言模型(LLM)构建自主智能体以执行个性化、标准化任务,正成为提升人类效率的重要途径。特别是自动化网络任务,如在预算内预订酒店,因其实用性而备受关注。网络智能体的成功不仅能满足实际需求,还为各种智能体落地场景提供了关键的验证案例,预示着未来应用的广阔前景。

然而,先前的研究往往依赖于手工设计的智能体策略,如提示模板、多智能体系统和搜索方法等,这些策略可能无法在所有现实场景中通用。此外,关于网络智能体的观察/动作表示与其所依赖的LLM预训练数据之间的不匹配问题,研究相对较少。这种不匹配在LLM主要针对语言补全而非涉及具体导航动作和符号化网络元素的任务时尤为明显。

近期,一项研究通过简单地调整网络智能体的观察和动作空间,使其与LLM的能力相匹配,显著提升了基于LLM的网络智能体的性能。该方法无需使用上下文示例、新智能体角色、在线反馈或搜索策略,仅通过与LLM训练对齐,实现了零样本、零经验的单LLM调用,并在各种网络任务上超越了先前的方法。

具体而言,在WebArena这一通用网络交互任务基准上,该研究提出的AgentOccam智能体相比之前的SOTA和同期工作,分别提高了9.8(+29.4%)和5.9(+15.8%)个绝对点,并将成功率提升了26.6个点(+161%),远超类似纯网络智能体。这一成果凸显了LLM在网络任务上的出色零样本性能,并强调了为基于LLM的智能体精心调整观察和动作空间的重要性。

AgentOccam的简单设计理念为网络智能体研究提供了新的思路。它表明,通过与LLM的训练目标相一致,可以实现更高效、更通用的网络任务自动化。这一发现不仅对网络智能体领域具有重要意义,也为其他领域的智能体研究提供了借鉴。

然而,尽管AgentOccam取得了显著的成果,但仍存在一些潜在的局限性。例如,其性能可能受到LLM本身能力的限制,对于某些复杂或特定的网络任务,可能需要更强大的LLM或额外的策略来提升性能。此外,AgentOccam的设计理念虽然简单有效,但可能无法适用于所有类型的网络任务或智能体场景,需要根据具体情况进行调整和优化。

从更广泛的角度来看,AgentOccam的成功也引发了关于智能体设计和LLM应用的深入思考。它提醒我们,在追求更复杂、更强大的智能体策略时,不应忽视与LLM训练目标的对齐。通过更好地理解和利用LLM的能力,我们可以开发出更高效、更通用的智能体,为各种实际应用带来更大的价值。

同时,AgentOccam的研究也为未来的智能体研究提供了新的挑战和机遇。例如,如何进一步优化观察和动作空间的调整策略,以适应不同类型的网络任务和LLM模型?如何在保持简单性的同时,提高智能体的鲁棒性和适应性?这些问题都值得进一步探索和研究。

论文链接:https://arxiv.org/abs/2410.13825

目录
相关文章
|
10月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
8月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
809 159
|
9月前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
524 43
|
8月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
788 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
9月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
1208 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
9月前
|
人工智能 安全 开发工具
不只是写代码:Qwen Code 如何规划、执行并验证软件工程任务
本文以阿里推出的 CLI 工具 Qwen Code 为例,深入剖析其如何通过精细化的 Prompt 设计(角色定义、核心规范、任务管理、工作流控制),赋予大模型自主规划、编码、测试与验证的能力。
|
9月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
846 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
8月前
|
存储 监控 算法
117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。
790 2
|
10月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
551 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统

热门文章

最新文章