4 个月前

VideoLLaMA 2:在视频大语言模型中推进时空建模和音频理解

VideoLLaMA 2:在视频大语言模型中推进时空建模和音频理解

摘要

在本文中,我们介绍了VideoLLaMA 2,这是一组旨在增强视频和音频导向任务中的时空建模和音频理解能力的视频大语言模型(Video-LLMs)。基于其前身,VideoLLaMA 2引入了一个定制的时空卷积(Spatial-Temporal Convolution, STC)连接器,能够有效捕捉视频数据复杂的时空动态。此外,我们通过联合训练将一个音频分支集成到模型中,从而无缝结合音频线索,丰富了模型的多模态理解能力。我们在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQA)和视频字幕生成(VC)任务上进行了全面评估,结果表明,VideoLLaMA 2在开源模型中始终表现出竞争力,并在多个基准测试中接近某些专有模型的表现。此外,与现有模型相比,VideoLLaMA 2在仅音频和音视频问答(AQA & OE-AVQA)基准测试中也显示出合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的卓越性能,为智能视频分析系统树立了新的标准。所有模型均公开发布,以促进进一步的研究。

代码仓库

damo-nlp-sg/videollama2
官方
pytorch
GitHub 中提及
damo-nlp-sg/videollama3
pytorch
GitHub 中提及
damo-nlp-sg/inf-clip
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundVideoLLaMA2-72B
Group Score: 8.4
Text Score: 36.2
Video Score: 21.8
video-question-answering-on-mvbenchVideoLLaMA2 (72B)
Avg.: 62.0
video-question-answering-on-next-qaVideoLLaMA2.1(7B)
Accuracy: 75.6
video-question-answering-on-perception-testVideoLLaMA2 (72B)
Accuracy (Top-1): 57.5
video-question-answering-on-tvbenchVideoLLaMA2 72B
Average Accuracy: 48.4
video-question-answering-on-tvbenchVideoLLaMA2 7B
Average Accuracy: 42.9
video-question-answering-on-tvbenchVideoLLaMA2.1
Average Accuracy: 42.1
zero-shot-video-question-answer-on-egoschema-1VideoLLaMA2 (72B)
Accuracy: 63.9
zero-shot-video-question-answer-on-video-mmeVideoLLaMA2 (72B)
Accuracy (%): 60.9
zero-shot-video-question-answer-on-video-mme-1VideoLLaMA2 (72B)
Accuracy (%): 63.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoLLaMA 2:在视频大语言模型中推进时空建模和音频理解 | 论文 | HyperAI超神经