
摘要
本文介绍了MiniGPT4-Video,这是一种专门为视频理解设计的多模态大语言模型(LLM)。该模型能够处理时间上的视觉数据和文本数据,使其在理解视频的复杂性方面表现出色。基于MiniGPT-v2的成功,后者在将单张图像的视觉特征转换到大语言模型空间中表现出色,并在多个图像-文本基准测试中取得了令人印象深刻的结果,本文进一步扩展了模型的能力,使其能够处理一系列帧,从而实现对视频的理解。MiniGPT4-Video不仅考虑了视觉内容,还融入了文本对话,使得该模型能够有效回答涉及视觉和文本组件的问题。实验结果表明,该模型在MSVD、MSRVTT、TGIF和TVQA基准测试中的表现优于现有的最先进方法,分别提高了4.22%、1.13%、20.82%和13.1%。我们的模型和代码已公开发布于https://vision-cair.github.io/MiniGPT4-video/
代码仓库
pwc-1/Paper-9/tree/main/2/minigpt4
mindspore
Vision-CAIR/MiniGPT4-video
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-based-generative-performance-1 | MiniGPT4-video-7B | gpt-score: 3.08 |
| video-based-generative-performance-2 | MiniGPT4-video-7B | gpt-score: 2.67 |
| video-based-generative-performance-3 | MiniGPT4-video-7B | gpt-score: 3.57 |
| video-based-generative-performance-4 | MiniGPT4-video-7B | gpt-score: 3.02 |
| video-based-generative-performance-5 | MiniGPT4-video-7B | gpt-score: 2.65 |
| zero-shot-video-question-answer-on-tvqa | MiniGPT4-video-7B | Accuracy: 54.21 |
| zeroshot-video-question-answer-on-activitynet | MiniGPT4-video-7B | Accuracy: 46.3 |
| zeroshot-video-question-answer-on-msrvtt-qa | MiniGPT4-video-7B | Accuracy: 59.73 |
| zeroshot-video-question-answer-on-msvd-qa | MiniGPT4-video-7B | Accuracy: 73.92 |
| zeroshot-video-question-answer-on-tgif-qa | MiniGPT4-video-7B | Accuracy: 72.22 |