8 个月前

摘要

基于语言模型的进展，大型多模态模型（LMMs）在视频理解方面取得了显著改进。尽管当前的视频LMMs利用了先进的大型语言模型（LLMs），但它们依赖于图像编码器或视频编码器来处理视觉输入，每种编码器都有其自身的局限性。图像编码器在捕捉帧序列中的丰富空间细节方面表现出色，但在显式时间上下文方面存在不足，这在包含复杂动作序列的视频中尤为重要。另一方面，视频编码器提供了时间上下文，但由于计算资源的限制，通常只能以较低分辨率处理稀疏帧，导致上下文和空间理解能力下降。为此，我们引入了VideoGPT+，该模型结合了图像编码器（用于详细的空间理解）和视频编码器（用于全局时间上下文建模）的优势。该模型通过将视频分割成较小的片段，并对图像和视频编码器提取的特征应用自适应池化策略来处理视频。我们的架构在多个视频基准测试中展示了改进的性能，包括VCGBench、MVBench和零样本问答任务。此外，我们开发了一个包含112,000个视频指令集的新颖半自动注释管道，进一步提升了模型性能。为了全面评估视频LMMs，我们提出了VCGBench-Diverse，涵盖了生活方式、体育、科学、游戏和监控等18个广泛的视频类别。该基准测试包含4,354个问题-答案对，评估现有LMMs在密集视频字幕生成、空间和时间理解以及复杂推理方面的泛化能力，确保对不同类型的视频及其动态进行全面评估。代码：https://github.com/mbzuai-oryx/VideoGPT-plus.

源 PDF 查看代码