Memento：基于记忆无需微调即可让大语言模型智能体持续学习的框架-阿里云开发者社区

Memento：基于记忆无需微调即可让大语言模型智能体持续学习的框架

2025-09-02 316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Memento是一种创新的LLM智能体框架，通过基于记忆的在线强化学习实现低成本持续适应，无需微调模型参数。其核心理念借鉴人类学习机制，利用情景记忆库中的历史轨迹指导决策，结合案例推理与工具调用，构建了适用于动态环境的自适应智能体系统。

大语言模型智能体（LLM Agent）是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统，通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同，LLM智能体采用主动且迭代的运行模式，在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器，OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式，但是都存在根本性限制。第一种范式基于专门化框架构建智能体，采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好，但缺乏必要的灵活性，部署后智能体保持静态状态，无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身，包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式，但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化，依赖静态的手工制作反思工作流程，要么计算密集，需要对LLM模型参数进行梯度更新。

Memento的核心理念

面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战，Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应，完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹，在巩固过程中将其提炼为抽象规则，通过多巴胺驱动的信用分配机制进行选择性强化，并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察，LLM智能体不再依赖微调基础模型，而是利用外部记忆存储包含成功和失败标签的历史轨迹，从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理（Case-Based Reasoning, CBR），这是一种具有心理学基础的学习策略，有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构

Memento通过构建非参数化的即时框架来实现基于案例的推理，具体实例化为基于记忆的马尔可夫决策过程（Memory-based MDP）的规划器-执行器架构。该系统包含三个核心组件：规划器、工具增强执行器，以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同，Memento将记忆直接整合到决策过程中。给定当前状态，CBR模块检索相关案例并通过LLM进行重用和适配，这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策，使用案例检索策略为给定状态生成历史案例的概率分布，进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器，在基于案例的规划（上面的阶段1）和基于工具的执行（阶段2）之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体，该模块同时支持写入操作（记录新案例并在线优化Q函数）和读取操作（通过学习的检索策略检索案例以实现自适应案例选择）。执行器则是基于LLM的MCP客户端，通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景，Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务，系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。

实验结果与性能评估

实验在四个基准数据集上进行全面评估。GAIA基准测试长期工具使用能力，DeepResearcher评估实时网络研究性能，SimpleQA检验事实准确性，HLE则专注于长尾学术推理能力。系统采用规划器-执行器架构，使用GPT-4.1作为规划器，o4-mini作为默认执行器（GAIA基准使用o3），并配备完整的工具支持。

实验结果显示Memento在GAIA验证集上取得第一名（87.88% Pass@3），在私有测试排行榜上达到79.40%的成绩。在DeepResearcher数据集上实现66.6% F1分数和80.4% PM指标，超越了当前最先进的基于训练的系统。基于案例的记忆机制在分布外任务上带来4.7到9.6个绝对百分点的提升，在SimpleQA基准上达到95.0% PM。

这一方法代表了LLM智能体基于案例持续学习的首次尝试，在GAIA基准上实现顶级性能，为Deep Research智能体的持续适应提供了具有原则性的框架支撑。