
摘要
随着大型语言模型(LLMs)的成功,将视觉模型集成到LLMs中以构建视觉-语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能处理有限数量的帧,用于短视频理解。本研究主要集中在设计一种高效且有效的模型,以实现长期视频理解。与大多数现有工作试图同时处理更多帧不同,我们提出了一种在线处理视频的方法,并将过去的视频信息存储在记忆库中。这使得我们的模型能够在不超出LLMs上下文长度限制或GPU内存限制的情况下,引用历史视频内容进行长期分析。我们的记忆库可以无缝集成到当前的多模态LLMs中,采用即插即用的方式。我们在各种视频理解任务上进行了广泛的实验,包括长期视频理解、视频问答和视频字幕生成,结果表明我们的模型在多个数据集上均能达到最先进的性能。代码可在 https://boheumd.github.io/MA-LMM/ 获取。
代码仓库
boheumd/MA-LMM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-relation-extraction-on-vinoground | MA-LMM-Vicuna-7B | Group Score: 6.8 Text Score: 23.8 Video Score: 25.6 |
| video-captioning-on-youcook2 | MA-LMM | CIDEr: 1.31 METEOR: 17.6 |
| video-classification-on-breakfast | MA-LMM | Accuracy (%): 93.0 |
| video-classification-on-coin-1 | MA-LMM | Accuracy (%): 93.2 |
| video-question-answering-on-activitynet-qa | MA-LMM | Accuracy: 49.8 |
| video-question-answering-on-msrvtt-qa | MA-LMM | Accuracy: 48.5 |
| visual-question-answering-on-msvd-qa-1 | MA-LMM | Accuracy: 0.606 |