4 个月前

VidCtx:基于上下文感知的视频问答模型

VidCtx:基于上下文感知的视频问答模型

摘要

为了应对大型多模态模型在视频问答任务中计算和内存的限制,最近的一些方法从每帧中提取文本表示(例如,通过字幕生成)并将其输入到大型语言模型(LLM)中,由其处理这些文本以生成最终答案。然而,这种方法使得 LLM 无法访问视觉信息,并且经常需要处理相邻帧的重复文本描述。为了解决这些不足,本文引入了 VidCtx,一种新颖的无需训练的视频问答框架,该框架整合了两种模态的信息,即输入帧中的视觉信息和其他帧的文本描述,后者提供了适当的上下文。具体而言,在所提出的框架中,一个预训练的大型多模态模型(LMM)被提示定期提取问题感知的视频帧文本描述(字幕)。这些描述将在回答当前问题时作为上下文使用,此时 LMM 将根据以下输入进行提示:a) 某一特定帧;b) 问题本身;c) 适当帧的上下文/字幕。为了避免冗余信息,我们选择了距离较远的帧的描述作为上下文。最后,采用了一种简单而有效的最大池化机制来聚合帧级别的决策。这一方法使模型能够专注于视频的相关部分,并扩展到大量帧。实验表明,在三个公开的视频问答基准数据集 NExT-QA、IntentQA 和 STAR 上,VidCtx 在依赖开放模型的方法中表现出竞争力。我们的代码可在 https://github.com/IDT-ITI/VidCtx 获取。

代码仓库

idt-iti/vidctx
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-video-question-answer-on-intentqaVidCtx (7B)
Accuracy: 67.1
zero-shot-video-question-answer-on-next-qaVidCtx (7B)
Accuracy: 70.7
zero-shot-video-question-answer-on-starVidCtx (7B)
Accuracy: 51.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VidCtx:基于上下文感知的视频问答模型 | 论文 | HyperAI超神经