Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

简介: Memento是一种创新的LLM智能体框架,通过基于记忆的在线强化学习实现低成本持续适应,无需微调模型参数。其核心理念借鉴人类学习机制,利用情景记忆库中的历史轨迹指导决策,结合案例推理与工具调用,构建了适用于动态环境的自适应智能体系统。

大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式,但是都存在根本性限制。第一种范式基于专门化框架构建智能体,采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好,但缺乏必要的灵活性,部署后智能体保持静态状态,无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身,包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式,但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化,依赖静态的手工制作反思工作流程,要么计算密集,需要对LLM模型参数进行梯度更新。

Memento的核心理念

面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战,Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应,完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹,在巩固过程中将其提炼为抽象规则,通过多巴胺驱动的信用分配机制进行选择性强化,并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察,LLM智能体不再依赖微调基础模型,而是利用外部记忆存储包含成功和失败标签的历史轨迹,从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理(Case-Based Reasoning, CBR),这是一种具有心理学基础的学习策略,有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构

Memento通过构建非参数化的即时框架来实现基于案例的推理,具体实例化为基于记忆的马尔可夫决策过程(Memory-based MDP)的规划器-执行器架构。该系统包含三个核心组件:规划器、工具增强执行器,以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同,Memento将记忆直接整合到决策过程中。给定当前状态,CBR模块检索相关案例并通过LLM进行重用和适配,这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策,使用案例检索策略为给定状态生成历史案例的概率分布,进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器,在基于案例的规划(上面的阶段1)和基于工具的执行(阶段2)之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体,该模块同时支持写入操作(记录新案例并在线优化Q函数)和读取操作(通过学习的检索策略检索案例以实现自适应案例选择)。执行器则是基于LLM的MCP客户端,通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景,Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务,系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。

实验结果与性能评估


实验在四个基准数据集上进行全面评估。GAIA基准测试长期工具使用能力,DeepResearcher评估实时网络研究性能,SimpleQA检验事实准确性,HLE则专注于长尾学术推理能力。系统采用规划器-执行器架构,使用GPT-4.1作为规划器,o4-mini作为默认执行器(GAIA基准使用o3),并配备完整的工具支持。

实验结果显示Memento在GAIA验证集上取得第一名(87.88% Pass@3),在私有测试排行榜上达到79.40%的成绩。在DeepResearcher数据集上实现66.6% F1分数和80.4% PM指标,超越了当前最先进的基于训练的系统。基于案例的记忆机制在分布外任务上带来4.7到9.6个绝对百分点的提升,在SimpleQA基准上达到95.0% PM。

这一方法代表了LLM智能体基于案例持续学习的首次尝试,在GAIA基准上实现顶级性能,为Deep Research智能体的持续适应提供了具有原则性的框架支撑。

总结

Memento通过其基于记忆的学习范式实现了重要突破,支持自适应在线搜索而无需更新模型权重。该方法将深度研究智能体形式化为基于记忆的MDP,在规划器-执行器框架内实现,利用情景案例库记录和检索轨迹以实现持续策略改进。作为该领域的开创性工作,Memento为未来智能体系统的发展奠定了重要基础。

论文:https://avoid.overfit.cn/post/b6655a71ece747729890be10959e8855

作者: Mayur Jain

目录
相关文章
|
9月前
|
存储 人工智能 自然语言处理
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
本文探讨了多智能体系统中记忆机制的设计与实现,提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战,并介绍了四种记忆类型:即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案,满足不同记忆需求。此外,高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出,这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展,为人工智能开辟新路径。
982 5
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
|
6月前
|
存储 人工智能 NoSQL
万字解码 Agentic AI 时代的记忆系统演进之路
本文深入探讨了在 Agentic AI 时代,记忆(Memory) 作为智能体核心能力的定义、构建与技术演进。
2046 9
万字解码 Agentic AI 时代的记忆系统演进之路
|
6月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
900 50
|
5月前
|
算法 Linux Shell
Linux实用技能:打包压缩、热键、Shell与权限管理
本文详解Linux打包压缩技巧、常用命令与原理,涵盖.zip与.tgz格式操作、跨系统传文件方法、Shell运行机制及权限管理,助你高效使用Linux系统。
Linux实用技能:打包压缩、热键、Shell与权限管理
|
5月前
|
缓存 Java 开发者
Java 开发者必看!ArrayList 和 LinkedList 的性能厮杀:选错一次,代码慢成蜗牛
本文深入解析了 Java 中 ArrayList 和 LinkedList 的性能差异,揭示了它们在不同操作下的表现。通过对比随机访问、插入、删除等操作的效率,指出 ArrayList 在多数场景下更高效,而 LinkedList 仅在特定情况下表现优异。文章强调选择合适容器对程序性能的重要性,并提供了实用的选择法则。
301 3
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
9841 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
6月前
|
机器学习/深度学习 API 异构计算
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。
591 0
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
|
12月前
|
机器学习/深度学习 自然语言处理 算法
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
3303 1
|
机器学习/深度学习 人工智能 芯片
【AI系统】超异构计算
本文探讨了计算机架构发展的黄金十年,重点介绍了异构计算和超异构计算的概念及其在AI芯片发展中的应用。文章首先回顾了AI芯片发展的三个阶段,随后详细阐述了异构计算的优势和应用场景,如性能飞跃、灵活定制、降低成本和降低功耗。接着,文章分析了超异构计算的出现背景、基本特征及其面临的挑战,包括软件层的复杂性和硬件定义软件与软件定义硬件之间的权衡。最后,展望了超异构计算的未来,强调了跨平台统一计算架构的重要性,以及构建开放生态系统的必要性。
881 5