4 个月前

图像网格的价值堪比视频:使用视觉语言模型进行零样本视频问答

图像网格的价值堪比视频:使用视觉语言模型进行零样本视频问答

摘要

受到近期大型语言模型(LLMs)复杂推理能力的启发,人们设计了多种策略来弥合视频模态的差距。一个突出的策略涉及视频语言模型(VideoLMs),该模型通过训练可学习的接口将高级视觉编码器与大型语言模型连接起来。最近,另一种策略浮出水面,即在多个阶段中利用现成的基础模型,如VideoLMs和LLMs,进行模态桥接。在这项研究中,我们提出了一种简单而新颖的策略,仅使用单一的视觉语言模型(VLM)。我们的出发点是一个简单的洞见:视频由一系列图像或帧组成,并交织着时间信息。视频理解的核心在于巧妙地管理每一帧的空间细节及其时间方面。首先,我们将视频转换为单个复合图像,通过将多个帧以网格布局排列。生成的单个图像被称为图像网格。这种格式虽然保持了单一图像的外观,但有效地在网格结构中保留了时间信息。因此,图像网格方法使得可以直接应用单一高性能VLM,而无需任何视频数据训练。我们在十个零样本视频问答基准上进行了广泛的实验分析,包括五个开放式和五个选择题基准,结果表明所提出的图像网格视觉语言模型(IG-VLM)在其中九个基准上超过了现有方法。

代码仓库

imagegridworth/IG-VLM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-based-generative-performanceIG-VLM-GPT4v
Consistency: 3.13
Contextual Understanding: 3.61
Correctness of Information: 3.40
Detail Orientation: 2.80
Temporal Understanding: 2.89
mean: 3.17
zero-shot-video-question-answer-on-intentqaIG-VLM
Accuracy: 65.3
zero-shot-video-question-answer-on-next-qaIG-VLM(LLaVA v1.6)
Accuracy: 70.9
zero-shot-video-question-answer-on-next-qaIG-VLM (GPT-4)
Accuracy: 68.6
zero-shot-video-question-answer-on-tvqaIG-VLM (no speech, GPT-4V)
Accuracy: 57.8
zeroshot-video-question-answer-on-activitynetIG-VLM
Accuracy: 58.4
Confidence Score: 3.5
zeroshot-video-question-answer-on-msrvtt-qaIG-VLM
Accuracy: 63.8
Confidence Score: 3.5
zeroshot-video-question-answer-on-msvd-qaIG-VLM-34B
Accuracy: 79.6
Confidence Score: 4.1
zeroshot-video-question-answer-on-tgif-qaIG-VLM
Accuracy: 79.1
Confidence Score: 4.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像网格的价值堪比视频:使用视觉语言模型进行零样本视频问答 | 论文 | HyperAI超神经