Command Palette
Search for a command to run...
Yu Wang Ryuichi Takanobu Zhiqi Liang Yuzhen Mao Yuanzhe Hu Julian McAuley Xiaojian Wu

摘要
大型语言模型(LLM)代理受限于有限的上下文窗口,因此需要依赖外部记忆系统以实现对长期信息的理解。当前的增强记忆代理通常依赖预定义的指令和工具来更新记忆。然而,语言模型可能缺乏判断应存储哪些信息、如何组织信息以及何时更新信息的能力,尤其是在记忆系统日益复杂的情况下。这导致记忆构建效果不佳,并造成信息丢失。为此,我们提出 Mem-alpha,一种基于强化学习的框架,通过交互与反馈训练代理有效管理复杂的记忆系统。我们还构建了一个专门的训练数据集,涵盖多种多轮交互模式,并配有全面的评估问题,旨在教会代理高效管理记忆。在训练过程中,代理处理连续的信息片段,学习提取并存储相关内容,进而更新记忆系统。奖励信号来源于对完整交互历史的下游问答准确率,从而直接优化记忆构建过程。为验证该训练框架的有效性,我们设计了一种包含核心记忆、情景记忆和语义记忆三个组件的内存架构,并配备多种用于记忆操作的工具。实证评估表明,Mem-alpha 在多个方面显著优于现有的增强记忆代理基线模型。尽管训练仅使用最大长度为30k token的样本,我们的代理在处理超过400k token的序列时仍表现出卓越的泛化能力,远超训练长度的13倍,充分体现了 Mem-alpha 的强大鲁棒性。