8 个月前

摘要

什么样的表示方法能更好地用于视频理解，例如预测未来活动或回答基于视频的问题？尽管早期的方法主要集中在直接从视频像素进行端到端学习，我们提出重新审视基于文本的表示方法，如通用视频字幕，这些方法具有可解释性，并且可以直接被大型语言模型（LLMs）利用。直观上，不同的视频理解任务可能需要互补且粒度不同的表示方法。为此，我们提出了多用途动作模型（Vamos），这是一种由大型语言模型作为“推理器”的学习框架，可以灵活地利用视觉嵌入和自由格式的文本描述作为输入。为了解释对问题回答重要的文本证据，我们将概念瓶颈模型的概念扩展到与标记和非线性模型一起工作，该模型使用硬注意力机制从自由格式的文本中选择一小部分标记作为输入传递给LLM推理器。我们在五个互补的基准数据集上评估了Vamos，包括Ego4D、NeXT-QA、IntentQA、Spacewalk-18和EgoSchema，测试其在建模时间动态、编码视觉历史和执行推理方面的能力。令人惊讶的是，我们观察到基于文本的表示方法在这所有基准数据集上始终表现出竞争力，并且视觉嵌入仅提供微小或无性能提升，这表明在大型语言模型时代，基于文本的视频表示方法的有效性。此外，我们还展示了我们的标记瓶颈模型能够从自由格式的文本中选择相关证据，支持测试时干预，并在保持竞争力的问题回答性能的同时实现近5倍的推理加速。代码和模型已公开发布于https://brown-palm.github.io/Vamos/。

源 PDF