4 个月前

Video-LLaMA:用于视频理解的指令调优音视频语言模型

Video-LLaMA:用于视频理解的指令调优音视频语言模型

摘要

我们介绍了Video-LLaMA,这是一种多模态框架,赋予大型语言模型(LLMs)理解和处理视频中的视觉和听觉内容的能力。Video-LLaMA通过冻结的预训练视觉和音频编码器以及冻结的大型语言模型进行跨模态训练。与以往仅补充大型语言模型以处理视觉或听觉信号的工作不同,Video-LLaMA通过解决两个挑战来实现视频理解:(1)捕捉视觉场景中的时间变化;(2)整合视听信号。为了解决第一个挑战,我们提出了一种Video Q-former,将预训练的图像编码器集成到我们的视频编码器中,并引入了视频到文本生成任务,以学习视频与语言之间的对应关系。对于第二个挑战,我们利用ImageBind这一对齐多种模态的通用嵌入模型作为预训练的音频编码器,并在其基础上引入了Audio Q-former,以学习合理的听觉查询嵌入供大型语言模型模块使用。为了使视觉和音频编码器的输出与大型语言模型的嵌入空间对齐,我们首先在大量的视频/图像-字幕对上训练Video-LLaMA,然后使用中等数量但高质量的视觉指令数据集微调我们的模型。我们发现,Video-LLaMA展示了感知和理解视频内容的能力,并能生成基于视频中呈现的视听信息的有意义响应。

代码仓库

damo-nlp-sg/videollama2
pytorch
GitHub 中提及
damo-nlp-sg/video-llama
官方
pytorch
GitHub 中提及
damo-nlp-sg/videollama3
pytorch
GitHub 中提及
xinding-sys/StreamMind
pytorch
GitHub 中提及

基准测试

基准方法指标
video-based-generative-performanceVideo LLaMA
Consistency: 1.79
Contextual Understanding: 2.16
Correctness of Information: 1.96
Detail Orientation: 2.18
Temporal Understanding: 1.82
mean: 1.98
video-based-generative-performance-1Video LLaMA
gpt-score: 1.96
video-based-generative-performance-2Video LLaMA
gpt-score: 1.79
video-based-generative-performance-3Video LLaMA
gpt-score: 2.16
video-based-generative-performance-4Video LLaMA
gpt-score: 2.18
video-based-generative-performance-5Video LLaMA
gpt-score: 1.82
video-question-answering-on-mvbenchVideoLLaMA
Avg.: 34.1
video-text-retrieval-on-test-of-timeVideo-LLAMA
2-Class Accuracy: 88.33
zeroshot-video-question-answer-on-activitynetVideo LLaMA
Accuracy: 12.4
Confidence Score: 1.1
zeroshot-video-question-answer-on-msrvtt-qaVideo LLaMA-7B
Accuracy: 29.6
Confidence Score: 1.8
zeroshot-video-question-answer-on-msvd-qaVideo LLaMA-7B
Accuracy: 51.6
Confidence Score: 2.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Video-LLaMA:用于视频理解的指令调优音视频语言模型 | 论文 | HyperAI超神经