8 个月前

摘要

为了应对大型多模态模型在视频问答任务中计算和内存的限制，最近的一些方法从每帧中提取文本表示（例如，通过字幕生成）并将其输入到大型语言模型（LLM）中，由其处理这些文本以生成最终答案。然而，这种方法使得 LLM 无法访问视觉信息，并且经常需要处理相邻帧的重复文本描述。为了解决这些不足，本文引入了 VidCtx，一种新颖的无需训练的视频问答框架，该框架整合了两种模态的信息，即输入帧中的视觉信息和其他帧的文本描述，后者提供了适当的上下文。具体而言，在所提出的框架中，一个预训练的大型多模态模型（LMM）被提示定期提取问题感知的视频帧文本描述（字幕）。这些描述将在回答当前问题时作为上下文使用，此时 LMM 将根据以下输入进行提示：a) 某一特定帧；b) 问题本身；c) 适当帧的上下文/字幕。为了避免冗余信息，我们选择了距离较远的帧的描述作为上下文。最后，采用了一种简单而有效的最大池化机制来聚合帧级别的决策。这一方法使模型能够专注于视频的相关部分，并扩展到大量帧。实验表明，在三个公开的视频问答基准数据集 NExT-QA、IntentQA 和 STAR 上，VidCtx 在依赖开放模型的方法中表现出竞争力。我们的代码可在 https://github.com/IDT-ITI/VidCtx 获取。

源 PDF