4 个月前

MA-LMM:增强记忆的大规模多模态模型用于长期视频理解

MA-LMM:增强记忆的大规模多模态模型用于长期视频理解

摘要

随着大型语言模型(LLMs)的成功,将视觉模型集成到LLMs中以构建视觉-语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能处理有限数量的帧,用于短视频理解。本研究主要集中在设计一种高效且有效的模型,以实现长期视频理解。与大多数现有工作试图同时处理更多帧不同,我们提出了一种在线处理视频的方法,并将过去的视频信息存储在记忆库中。这使得我们的模型能够在不超出LLMs上下文长度限制或GPU内存限制的情况下,引用历史视频内容进行长期分析。我们的记忆库可以无缝集成到当前的多模态LLMs中,采用即插即用的方式。我们在各种视频理解任务上进行了广泛的实验,包括长期视频理解、视频问答和视频字幕生成,结果表明我们的模型在多个数据集上均能达到最先进的性能。代码可在 https://boheumd.github.io/MA-LMM/ 获取。

代码仓库

boheumd/MA-LMM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundMA-LMM-Vicuna-7B
Group Score: 6.8
Text Score: 23.8
Video Score: 25.6
video-captioning-on-youcook2MA-LMM
CIDEr: 1.31
METEOR: 17.6
video-classification-on-breakfastMA-LMM
Accuracy (%): 93.0
video-classification-on-coin-1MA-LMM
Accuracy (%): 93.2
video-question-answering-on-activitynet-qaMA-LMM
Accuracy: 49.8
video-question-answering-on-msrvtt-qaMA-LMM
Accuracy: 48.5
visual-question-answering-on-msvd-qa-1MA-LMM
Accuracy: 0.606

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MA-LMM:增强记忆的大规模多模态模型用于长期视频理解 | 论文 | HyperAI超神经