8 个月前

摘要

长视频理解因视频数据的高度冗余性和大量与查询无关的信息而变得复杂。为了解决这些挑战，我们提出了一种名为VideoTree的无训练框架，该框架构建了适用于长视频的查询自适应和层次化视频表示，以支持大语言模型（LLM）对长视频进行推理。首先，VideoTree通过迭代过程从输入视频中提取与查询相关的信息，逐步根据关键帧与查询的相关性来优化关键帧的选择。此外，VideoTree利用了长视频数据固有的层次结构，这一特性通常被现有的基于LLM的方法所忽视。具体而言，我们将多粒度信息整合到树形表示中，使VideoTree能够以由粗到细的方式从长视频中提取与查询相关的信息。这使得模型能够有效应对具有不同细节水平的广泛视频查询。最后，VideoTree在树结构内聚合层次化的查询相关信息，并将其输入到LLM推理模型中以回答查询。我们的实验表明，该方法提高了推理的准确性和效率。特别是，在EgoSchema和NExT-QA数据集上，VideoTree在较少的推理时间下优于现有的无训练方法，在测试集上的准确率分别达到了61.1%和75.6%，且无需额外针对视频的训练。此外，在平均时长为44分钟的Video-MME长时间分割数据集上，VideoTree的表现优于GPT-4V以及许多经过大量视频数据训练的多模态大语言模型（MLLM）。

源 PDF