2025年12月2日,来自伊利诺伊大学香槟分校和Google DeepMind的研究团队发布了一项突破性研究:Evo-Memory,这是一个创新的流式基准测试,同时还推出了专为大语言模型(LLM)代理设计的ReMem框架,以解决测试时学习经验重用的瓶颈。这项研究旨在让大语言模型摆脱对静态对话记录的依赖,让其从连续任务流中积累并重用策略,从而优化性能。
目前,大多数语言模型通过“对话记忆”处理任务,即存储对话历史、工具轨迹及检索的文档,并将这些数据重新整合到上下文窗口。然而,这种记忆方式仅充当被动信息缓冲区,能够恢复事实或回忆任务流程,但无法主动调整任务方法。
Evo-Memory 专注于“体验重用”,将每次互动记录为编码输入、输出、任务完成状态及有效策略的体验。这一基准测试旨在验证代理是否能够调用之前任务中的经验,将其作为可重复使用的程序,并在后续任务中反复优化记忆。
研究团队正式定义了一个记忆增强的代理模型结构,包括以下四大核心模块:
1. 基础模型:生成任务输出。
2. 检索模块:从记忆库中搜索相关记录。
3. 上下文构造器:将当前输入与检索到的记忆条目整合为适用的提示。
4. 更新功能:在每次任务步骤后写入新经验并进化记忆。
Evo-Memory 将传统的基准测试重新构造成连续任务流,每个数据集被转化为任务的有序序列,其中早期任务的策略能够为后续任务提供支持。这组测试覆盖了广泛领域:包括 AIME 24 和 AIME 25、GPQA Diamond、MMLU-Pro,以及工具使用基准(ToolBench),同时还涵盖了 AgentBoard 的多轮对话环境,如 AlfWorld、BabyAI、ScienceWorld、Jericho 和 PDDL 规划。
为了提供最低标准的比较,研究团队提出了ExpRAG框架。每一次互动都会生成一个结构化的经验文本模板,包括输入、模型输出和反馈信号(例如任务是否正确完成)。在新的任务中,代理可以基于相似度评分从记忆中检索类似经验,并将其整合到当前输入的上下文中。此方法虽然未改变代理的控制循环,但通过显式存储此前任务的经验,增强了上下文提示的效果。
ReMem框架为代理提供了更高级的控制循环,核心操作包括:
1. 思考(Think):生成任务分解的中间推理路径。
2. 行动(Act):输出用户可见的环境行动或最终答案。
3. 优化(Refine):通过检索、修剪和重组记忆条目对记忆进行改进。
在每个步骤中,代理可以交替进行多次“思考”和“优化”操作,而步骤的结束由执行“行动”决定。与传统ReAct样式代理不同,ReMem将记忆视为一个显式对象,代理在推理过程中能够主动管理和修改记忆。
实验在Gemini 2.5 Flash和Claude 3.7 Sonnet模型上统一流程展开,采用“搜索-预测-进化”的协议以确保记忆架构的效果独立于其他因素。
在单轮任务基准上,自进化记忆方法带来稳定但适度的性能提升,例如ReMem框架在AIME 24、AIME 25、GPQA Diamond和MMLU Pro子集上的平均准确率达到65%,在ToolBench API和工具使用准确率数据集上分别达到85%和71%。而ExpRAG取得了60%的准确率,甚至超过了某些更复杂的设计。
在多轮交互环境中,ReMem 的表现更加突出。在 Claude 3.7 Sonnet 模型上,其任务成功率和进展率分别达到 92% 和 96%(AlfWorld)、73% 和 83%(BabyAI)、83% 和 95%(PDDL),以及 62% 和 89%(ScienceWorld),平均成功率为 78%,进展率为 91%。此外,任务效率也显著提高,例如 ReMem 在 AlfWorld 完成任务所需的平均步骤从历史基线的 22.6 步降至 11.5 步。
任务相似性分析进一步显示,ReMem的性能优势与数据集内部的任务相似性具有较强的相关性(Gemini 2.5 Flash报告的皮尔逊相关系数为0.72,Claude 3.7 Sonnet为0.56)。
Evo-Memory通过将传统数据集转化为连续任务流,开创了针对自进化记忆的新型测试方法。不仅框架内包含了超过10种记忆架构,还在多个领域验证了体验重用带来的显著性提升。简单方法如ExpRAG已显现可观效果,而复杂方法如ReMem的性能优化尤为突出。
研究团队指出,自进化记忆不仅能让小型模型在测试时表现得如同更强大的代理,还能在无需重新训练基础模型权重的情况下提升任务准确率。此项研究为大语言模型的测试时动态演化提供了明确的设计目标,彰显了在模型不断进步的背景下有效记忆框架的重要性。
[AI之星网出品] [自进化记忆] [大语言模型优化] [ReMem框架与应用] [Evo-Memory测试] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

既能交替又能优化,感觉科学家的脑洞已经不局限于现实世界了,期待他们继续放飞!
单轮任务暴露了问题,但反过来也是优化的好机会,科学的魅力在于不断突破认知!
研究团队关注底线比较标准,这种态度真是细节控,值得点赞!
2025年?这时间线好科幻,提前感受到未来脚步靠近的震撼感!