HyperAIHyperAI

Command Palette

Search for a command to run...

MemLens:大视觉-语言模型中多模态长期记忆的基准测试

摘要

标题:(无标题)摘要:记忆对于大型视觉-语言模型(LVLMs)处理长程、多模态交互至关重要,目前提供该能力的两种方法方向分别为长上下文 LVLMs 和记忆增强型智能体(agents)。然而,现有的基准测试均未在真正需要多模态证据的问题上对这两种方法进行系统比较。为弥补这一空白,我们引入了 MEMLENS,这是一个针对多模态多会话对话中记忆能力的综合基准测试,包含 789 个问题,涵盖五种记忆能力(信息提取、多会话推理、时间推理、知识更新和答案拒绝),并在跨模态 token 计数方案下设置了四种标准上下文长度(32K-256K tokens)。图像消融研究证实,解决 MEMLENS 任务需要视觉证据:移除证据图像后,两个前沿 LVLMs 在 80.4% 包含图像证据的问题上的准确率降至 2% 以下。我们对 27 个 LVLMs 和 7 个记忆增强型 agents 进行了评估,发现长上下文 LVLMs 通过直接视觉 grounding 实现了较高的短上下文准确率,但随着对话长度增加,其性能出现下降;而记忆 agents 则表现出长度稳定性,但在存储时间压缩过程中损失了视觉保真度。多会话推理任务使大多数系统的准确率低于 30%,且单一方法均无法有效解决该任务。这些结果激发了结合长上下文注意力与结构化多模态检索的混合架构的研究动机。我们的代码已开源,地址为 https://github.com/xrenaf/MEMLENS

一句话总结

MEMLENS 是一个全面的基准,用于多模态长期记忆,包含 789 个问题,涵盖五种记忆能力,在跨模态 token 计数方案下提供四种标准上下文长度,范围从 32K 到 256K tokens,用于评估 27 个大型视觉语言模型和 7 个 memory-augmented agents,揭示长上下文 LVLM 会随着对话增长而性能下降,而 memory agents 在存储时间压缩下会损失视觉保真度,且多会话推理将大多数系统限制在 30% 以下,单一方法无法解决该任务。

核心贡献

  • 本文介绍了 MEMLENS,这是一个针对多模态多会话对话中记忆的综合性基准,包含 789 个问题,涵盖五种记忆能力。该资源在跨模态 token 计数方案下运行,提供四种标准上下文长度,范围从 32K 到 256K tokens。
  • 图像消融研究证实,解决 MEMLENS 需要视觉证据,通过在测试期间移除证据图像。该实验使两个前沿 LVLM 在 80.4% 的证据包含图像的问题上准确率降至 2% 以下。
  • 对 27 个 LVLM 和 7 个 memory-augmented agents 的比较评估显示,长上下文模型随着对话增长而性能下降,而 memory agents 损失视觉保真度。结果表明多会话推理将大多数系统限制在 30% 以下,表明单一方法无法解决该任务。

引言

大型视觉语言模型越来越多地部署在需要跨扩展多模态上下文保留信息的场景中。当前评估方法通常缺乏评估长期记忆的标准化指标,或依赖低效的人工评分流程。本文介绍了 MEMLENS,一个旨在严格测试视觉语言系统中这些记忆能力的基准。为确保可扩展和一致的评估,利用 LLM-as-Judge 框架,该框架优先考虑最终确定答案而非中间推理痕迹。

数据集

  • 数据集组成与来源

    • 本文介绍了 MEMLENS,一个包含 789 个问题的基准,旨在评估多模态多会话对话中的记忆。
    • 数据在四种标准上下文长度(32K、64K、128K 和 256K tokens)下实例化,使用跨模态 token 计数方案。
    • 视觉证据由 4,695 张独特图像组成,通过 iCrawler 从公共网络搜索针对非以人为中心的主题本体检索。
    • 对话会话使用 GPT-5.1 模拟为用户和 Gemini-3-Pro 作为助手,填充会话来自 ShareGPT 和 UltraChat 以保持真实的对话模式。
  • 每个子集的关键细节

    • 数据集涵盖五种核心记忆能力:信息提取、多会话推理、时序推理、知识更新和答案拒绝。
    • 信息提取包括实体问题等子类型,需要视觉识别的两跳链随后进行文本检索。
    • 多会话推理评估通过计数、算术或实体解析操作跨越三到八个会话的聚合。
    • 强制跨模态依赖,使得 65.7% 的问题为图像必需,意味着没有证据图像无法恢复答案。
    • 答案拒绝项目移除所有支持证据,以测试模型是否可以拒绝回答而不是产生幻觉。
  • 在模型评估中的用途

    • 该基准仅用于评估,以比较 27 个 LVLM 和 7 个 memory-augmented agents 在所有四种上下文长度上的表现。
    • 本文明确指出,数据集不打算作为训练资源,以避免损害其诊断价值。
    • 评估结果强调,长上下文 LVLM 实现高短上下文准确率,但随着对话增长而下降,而 memory agents 保持长度稳定但损失视觉保真度。
    • 按记忆能力跟踪性能,以确保强大的信息提取不会错误预测多会话推理的成功。
  • 处理和构建细节

    • 四阶段流水线构建数据,从主题采样开始,到对话历史组装结束,其中证据会话与干扰项交错。
    • 实体抽象替换文本中的具体名称,用指代图像的照应词,以强制联合视觉文本推理。
    • 图像过滤应用多通道相关性评分,使用 CLIP 和 SigLIP,随后进行水印和标志的负面内容检查。
    • 质量控制涉及自动化纯文本裁判以防止捷径,以及三轮人工审查以验证自然性和证据可恢复性。
    • 每张图像的元数据包括源 URL、检索时间戳、感知哈希和模型分数,以支持可重复性和删除请求。

方法

本文提出了一个综合流水线,用于合成多模态对话数据,旨在严格测试长上下文场景中的检索能力。整体框架集成会话模拟、问答对构建和历史组装,以创建复杂的交错对话历史。参考框架图。

过程始于多模态会话模拟,生成“干草堆”或背景对话。该模块始于主题本体,以定义主题范围。随后检索和过滤网络图像,以确保视觉质量,然后集成到 VLM 用户和 VLM 助手之间的双 Agent 对话中。生成由角色档案和对话摘要驱动,利用特定提示模板,鼓励消息正文中自然照片分享。此方法确保生成的会话保持真正的多模态,而非附带图像作为侧边注释的纯文本会话。

为引入特定检索挑战,流水线采用问答对构建模块。本节始于从主题本体采样的背景生成,随后进行视觉锚点检索以识别关键实体,例如特定地标。关键步骤涉及实体歧义,其中文本中的特定命名实体被替换为通用占位符。此修改确保相关事实无法仅通过文本解决,从而要求模型利用视觉锚点作为证据。

一旦建立原子事实,证据会话构建模块将其包裹进多轮会话,结构上与主对话无法区分。VLM 或 Agent 生成这些会话,使用定制提示,目标每轮 250 到 350 字。指令指导助手提供有帮助的上下文和知识导向的跟进,同时避免个人或社交问题。六阶段验证器链,涵盖基于规则的时长、照片指令和语义泄露,确定生成的轮次是否被接受或重新生成。

最后,对话历史组装模块将这些组件组合成统一的时间线。组装交错多模态会话 (M)、证据会话 (E) 和填充会话 (F),即纯文本。此混合策略创建长上下文输入,具有固定的文本到图像比例,支持各种上下文预算,范围从 32K 到 256K tokens。

实验

本研究评估 27 个 LVLM 和七个 memory-augmented agents 在 MEMLENS 基准上跨越不同上下文长度,以评估长上下文记忆能力。实验揭示 LVLM 在较长上下文中由于证据稀释遭受性能下降,而 memory agents 保持长度不变性但在视觉基础任务上落后,因为存储期间有损信息压缩。错误类型和相关性分析确认检索和聚合的不同难度轴,激励混合设计保留像素级证据同时管理上下文扩展。

本研究调查骨干模型选择如何影响 Mem0 和 MemOS 记忆框架在各种推理任务上的性能。结果表明 Mem0 对骨干选择高度敏感,具有显著的性能差异,而 MemOS 使用替代骨干保持稳定或略微提高的准确率。这表明架构集成和模型校准发挥关键作用, alongside 原始骨干能力。Mem0 在骨干之间表现出广泛的性能差距,其中 gpt-4.1-mini 变体实现最高总体准确率。MemOS 显示对骨干替换的鲁棒性,其中切换到 Qwen2.5-7B 产生超过默认模型的边际改进。不同骨干优先考虑不同能力,例如一个变体实现更优的答案拒绝率,而另一个在时序推理中领先。

该表评估答案拒绝准确率,跨越不同模型大小和运行模式,在增加的上下文长度下。结果显示性能随上下文扩展一致下降,下降对于较小模型和特定解码模式最明显。此趋势突出长上下文场景中弃权行为的弱点,特别是对于较小架构。拒绝准确率随上下文长度从 32K 扩展到 128K 持续下降,跨越所有配置。较大模型在较长上下文长度下相比较小模型展示更好的拒绝准确率保持。Thinking 模式下的最小模型遭受最严重的性能崩溃,表明弃权行为的关键失败。

本文分析 34 个评估模型在 32K 上下文长度下记忆能力子类型之间的成对 Spearman 相关性,以确定任务是否衡量单一能力。热图揭示相关性的显著变化,表明记忆能力是独特的而非单一的。具体而言,检索导向任务聚集在一起,而推理密集型任务显示独立性能概况。信息提取和知识更新任务展示最强的正相关性,表明对证据检索能力的共同依赖。多会话推理子类型显示与信息提取任务的微弱或可忽略的相关性,突出独立于检索的独特聚合挑战。答案拒绝显示跨越任务类型的发散关系,与知识更新正相关但与时序推理持续时间比较负相关。

评估揭示,虽然顶级模型的短上下文准确率相似,但随着上下文长度增加到 128K 性能显著分歧。闭源系统通常相比开放权重模型保持更高鲁棒性,后者在幻觉控制和检索任务中遭受更陡峭下降。此外,memory-augmented agents 展示不同的扩展行为,保持长度不变但在视觉基础任务上落后于直接 LVLM。性能差距在较长上下文长度下扩大,开放权重模型相比闭源领导者显示显著准确率下降。多会话推理仍然是所有系统最具挑战性的任务类型,而答案拒绝准确率随上下文增长显著下降。没有单一模型家族主导所有记忆能力,不同架构在特定类别中表现出色,如时序推理与知识更新。

本文验证 LLM-as-Judge 评估协议,通过将其评分与人类共识比较,揭示特定的宽松模式,其中自动裁判错误授予答案分数。分析强调信息提取和答案拒绝任务产生最多分歧,由裁判接受部分事实匹配和模糊短语分别驱动。信息提取错误特征是裁判在短事实答案上接受部分匹配。答案拒绝分歧产生当模糊短语被错误授予为有效拒绝时。知识更新冲突源于冗长正确答案和字面要求之间的不匹配。

本研究评估记忆框架和模型能力,跨越不同骨干选择、上下文长度和任务类型,以评估鲁棒性和专业性。结果表明架构集成影响稳定性超过原始能力,而性能通常随上下文长度增加下降,较小模型在弃权行为中遭受严重下降。此外,相关性分析揭示记忆能力是独特的而非单一的,自动评估协议在信息提取和拒绝任务中相比人类共识展示特定宽松模式。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MemLens:大视觉-语言模型中多模态长期记忆的基准测试 | 论文 | HyperAI超神经