Command Palette
Search for a command to run...
AI Agent时代中的记忆
AI Agent时代中的记忆
Abstract
记忆已成为基于基础模型的智能体(agent)的核心能力之一,并将持续保持这一地位。随着关于智能体记忆的研究迅速扩展并引发前所未有的关注,该领域也日益呈现出碎片化趋势。现有归属于“智能体记忆”范畴的研究工作,在动机、实现方式及评估协议等方面往往存在显著差异;与此同时,大量模糊定义的记忆术语进一步加剧了概念上的混淆。传统的分类体系(如长期/短期记忆)已难以涵盖当代智能体记忆系统的多样性。为此,本文旨在系统梳理当前智能体记忆研究的最新图景。我们首先明确智能体记忆的界定范围,将其与相关概念——如大语言模型(LLM)记忆、检索增强生成(Retrieval-Augmented Generation, RAG)以及上下文工程(context engineering)——进行清晰区分。随后,从形式、功能与动态三个统一视角对智能体记忆展开分析。在形式维度上,我们识别出三种主流实现方式:基于标记(token-level)的记忆、参数化(parametric)记忆以及潜在空间(latent)记忆。在功能维度上,提出一种更为精细的分类体系,将记忆划分为事实性记忆、经验性记忆与工作记忆三类。在动态维度上,深入探讨记忆在时间维度上的形成机制、演化过程与检索策略。为支持实际开发,本文系统整理了当前主流的记忆评估基准与开源框架。在总结现有成果的基础上,进一步展望未来研究前沿,涵盖记忆自动化、强化学习融合、多模态记忆、多智能体记忆以及可信性(trustworthiness)等关键议题。我们期望本综述不仅能作为现有研究的权威参考,更能为未来智能体智能系统的设计提供概念基础,推动记忆作为一种“第一性原语”(first-class primitive)在智能体架构中的重新思考与系统化构建。
单句摘要
来自新加坡国立大学、中国人民大学、复旦大学、北京大学及合作机构的研究人员提出了一套完整的“形态-功能-动态”智能体记忆分类体系,通过识别词元级/参数化/潜在记忆形态、事实性/经验性/工作记忆功能以及形成/演化/检索动态,推动基于大语言模型的智能体实现超越传统长短期记忆区分的持久化与自适应能力。
核心贡献
- 本文针对人工智能智能体记忆研究日益碎片化的现状提出解决方案:现有术语不一致且过时的分类体系(如长短期记忆)无法涵盖现代系统的多样性,阻碍了概念清晰度与研究进展。
- 提出统一的三维分类体系,从形态(词元级、参数化、潜在记忆)、功能(事实性、经验性、工作记忆)和动态(形成、演化、检索)三个维度组织智能体记忆,突破粗粒度的时间划分范式。
- 基于该框架,本研究系统梳理了代表性评测基准与开源记忆框架,通过图1将现有系统映射至分类体系,并指出多模态记忆、强化学习融合等新兴前沿方向。
引言
作者指出,记忆能力已成为基于基础模型的AI智能体的核心支柱,使其具备长程推理、持续适应及与复杂环境有效交互的能力。随着智能体从静态语言模型演进为面向个性化聊天机器人、推荐系统和金融调查等应用的交互式系统,稳健的记忆机制对将固定参数模型转化为能从环境交互中学习的自适应系统至关重要。现有研究面临显著碎片化问题:术语不一致、实现方案分歧、分类体系不足——传统长短期记忆区分无法捕捉当代系统复杂性,而大语言模型记忆、检索增强生成(RAG)与上下文工程等重叠概念更导致概念模糊。为应对这些挑战,作者建立了“形态-功能-动态”综合框架,将记忆划分为三种架构形态(词元级、参数化、潜在记忆)、三种功能角色(事实性、经验性、工作记忆)及覆盖记忆形成、检索与演化的详细操作动态。该统一分类体系厘清了概念边界,整合了碎片化研究,并为评测基准、框架及强化学习融合、多模态记忆、可信记忆系统等新兴前沿提供了结构化分析。
数据集
作者调研了用于评估大语言模型智能体记忆与长期能力的两大类评测基准:
-
记忆/终身/自进化智能体基准
- 构成:专为记忆保持、终身学习或自我优化设计(如MemBench、LoCoMo、LongMemEval)。
- 关键细节:
- 聚焦事实性/经验性记忆、多模态输入及模拟/真实环境。
- 规模从数百至数千样本/任务(如MemBench用于用户建模,LongMemEval追踪灾难性遗忘)。
- 筛选侧重可控记忆保持、偏好追踪或多轮次适应。
- 用途:通过表8评估,该表按记忆焦点、模态与规模分类基准(如LoCoMo测试偏好一致性;LifelongAgentBench度量前向/后向迁移)。
-
其他相关基准
- 构成:原用于工具使用、具身交互或推理,但强调长程记忆(如WebShop、ALFWorld、SWE-Bench Verified)。
- 关键细节:
- 具身交互(ALFWorld)、基于网页(WebArena)或多任务(AgentGym)设置。
- 隐式测试序列动作中的上下文保持(如WebShop需回溯先前导航步骤)。
- 规模各异:WebArena采用任务级评估;GAIA评估多步骤研究。
- 用途:表9对比支持这些基准的框架,标注记忆类型(事实性/经验性)、多模态性及内部结构(如MemoryBank用于情节性知识整合)。
本文仅使用这些基准进行评估而非训练,以测量长上下文保持、状态追踪与适应能力。未进行数据裁剪等处理,而是通过表8-9的结构化特征对比分析基准,突出自我反思(Evo-Memory)或工具增强存储(MemoryAgentBench)等记忆机制。
方法
作者采用多维度综合框架构建基于大语言模型的智能体记忆系统,通过整合差异化记忆形态、功能角色与动态生命周期,实现持久化、自适应及目标导向行为。整体架构非单体结构,而是分层生态系统:词元级、参数化与潜在记忆共存交互,依据任务对可解释性、效率或性能的需求发挥互补作用。
在智能体循环核心,每个智能体 i∈I 观测环境状态 st 并接收观测 o˙ti=Oi(st,hti,Q),其中 hti 表示智能体可访问的交互历史,Q 为固定任务规范。随后执行动作 at=πi(Oti,mti,Q),其中 mti 是从动态记忆状态 Mt∈M 检索的记忆衍生信号。该记忆状态非静态缓冲区,而是持续经历形成、演化与检索的动态知识库,构成闭环认知循环。
记忆系统架构围绕三大核心形态构建,各具差异化表征特性与操作特征。词元级记忆按分类体系将信息组织为显式离散单元,支持独立访问与修改,进一步细分为平面(1D)、平面(2D)与分层(3D)拓扑。平面记忆以线性序列或独立簇存储信息,适用于简单分块或对话日志;平面记忆在单层内引入图或树等显式关系结构,支持丰富语义关联与结构化检索;分层记忆通过多抽象层级组织信息,实现由粗到精的导航与跨层推理(如金字塔或多层架构)。
参数化记忆则将信息直接存储于模型参数中,通过内化知识至基础权重或附加适配器/LoRA等外部参数模块实现。此形态隐式抽象,虽能通过前向传播直接集成提升性能,但更新较慢且易引发灾难性遗忘。潜在记忆在模型内部表征空间运行,将经验编码为连续嵌入、KV缓存或隐藏状态。其对人类不可读但对机器原生,支持高效多模态融合与低延迟推理,但牺牲了透明性与可编辑性。
记忆系统功能架构围绕三大支柱构建:事实性记忆、经验性记忆与工作记忆。事实性记忆作为持久化陈述性知识库,确保与用户偏好及环境状态的一致性;经验性记忆封装程序性知识,从历史轨迹提炼策略与技能以实现持续学习;工作记忆则提供动态有限工作区,用于单任务或会话中的主动上下文管理,兼顾单轮输入压缩与多轮状态维护。
记忆系统操作动态由形成、演化与检索的循环生命周期主导。记忆形成通过语义摘要、知识蒸馏、结构化构建、潜在表征或参数化内化,将原始经验转化为信息密集型知识单元;记忆演化通过整合、更新与遗忘机制将新单元纳入现有库,确保一致性、准确性与效率;记忆检索则执行上下文感知查询,在适当时机获取相关知识,涉及时机选择、查询构建、检索策略及后处理,为大语言模型策略提供简洁连贯的上下文。
该框架设计具备高度灵活性与可组合性。不同智能体可在不同时间频率实例化差异化操作子集,形成从被动缓冲区到主动演化知识库的多样化记忆系统。作者强调,记忆类型与机制的选择并非随意,而是反映设计者对智能体在特定任务中行为的预期,需在可解释性、效率与性能间权衡。此架构因此支持从多轮聊天机器人、个性化智能体到高推理强度任务及多模态低资源场景的广泛应用谱系。

实验
- 对大语言模型智能体开源记忆框架的对比分析验证了其对事实性记忆(向量/结构化存储)的支持,以及经验性轨迹(对话历史、情节摘要)与多模态记忆的逐步整合
- 框架涵盖具有分层记忆的智能体中心系统(如MemGPT、MemoryOS)至通用后端(如Pinecone、Chroma),多数实现长短时分离及基于图/画像的记忆空间
- 尽管部分框架在记忆基准上报告初步结果,但多数聚焦于提供可扩展数据库与API,缺乏标准化的智能体行为评估协议