4 个月前

MiniGPT4-Video:通过交错的视觉-文本标记推进多模态大语言模型的视频理解能力

MiniGPT4-Video:通过交错的视觉-文本标记推进多模态大语言模型的视频理解能力

摘要

本文介绍了MiniGPT4-Video,这是一种专门为视频理解设计的多模态大语言模型(LLM)。该模型能够处理时间上的视觉数据和文本数据,使其在理解视频的复杂性方面表现出色。基于MiniGPT-v2的成功,后者在将单张图像的视觉特征转换到大语言模型空间中表现出色,并在多个图像-文本基准测试中取得了令人印象深刻的结果,本文进一步扩展了模型的能力,使其能够处理一系列帧,从而实现对视频的理解。MiniGPT4-Video不仅考虑了视觉内容,还融入了文本对话,使得该模型能够有效回答涉及视觉和文本组件的问题。实验结果表明,该模型在MSVD、MSRVTT、TGIF和TVQA基准测试中的表现优于现有的最先进方法,分别提高了4.22%、1.13%、20.82%和13.1%。我们的模型和代码已公开发布于https://vision-cair.github.io/MiniGPT4-video/

代码仓库

基准测试

基准方法指标
video-based-generative-performance-1MiniGPT4-video-7B
gpt-score: 3.08
video-based-generative-performance-2MiniGPT4-video-7B
gpt-score: 2.67
video-based-generative-performance-3MiniGPT4-video-7B
gpt-score: 3.57
video-based-generative-performance-4MiniGPT4-video-7B
gpt-score: 3.02
video-based-generative-performance-5MiniGPT4-video-7B
gpt-score: 2.65
zero-shot-video-question-answer-on-tvqaMiniGPT4-video-7B
Accuracy: 54.21
zeroshot-video-question-answer-on-activitynetMiniGPT4-video-7B
Accuracy: 46.3
zeroshot-video-question-answer-on-msrvtt-qaMiniGPT4-video-7B
Accuracy: 59.73
zeroshot-video-question-answer-on-msvd-qaMiniGPT4-video-7B
Accuracy: 73.92
zeroshot-video-question-answer-on-tgif-qaMiniGPT4-video-7B
Accuracy: 72.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniGPT4-Video:通过交错的视觉-文本标记推进多模态大语言模型的视频理解能力 | 论文 | HyperAI超神经