8 个月前

摘要

近期在视频推理分割（VRS）领域的研究尝试将大型语言模型（LLMs）与感知模型结合，通过文本指令实现对象的定位和跟踪，在简单场景中取得了勉强令人满意的结果。然而，在具有长时间跨度、多个对象、快速运动和严重遮挡等特征的真实世界场景中，这些方法难以从用户查询中区分和推断出目标对象。本文分析了这些局限性的根本原因，并提出了ViLLa：基于大型语言模型的视频推理分割。值得注意的是，ViLLa通过多项核心创新成功应对了这些挑战：(1) 上下文合成器，该模块动态地将用户意图与视频上下文编码在一起，以实现准确的推理，解决复杂查询中的歧义；(2) 层次时间同步器，该组件通过在局部和全局时间尺度上建模多对象交互来解耦复杂时间场景中的多对象交互。此外，为了高效处理长视频，ViLLa引入了 (3) 关键片段采样器，该模块自适应地将长视频划分为较短但语义密集的片段，以减少冗余。更为重要的是，为了推动这一未充分探索领域的研究，我们构建了一个VRS基准数据集——VideoReasonSeg，涵盖了不同的复杂场景。我们的模型在VideoReasonSeg、Ref-YouTube-VOS、Ref-DAVIS17、MeViS和ReVOS等多个数据集上展现了卓越的最新成果。定量和定性实验均表明，我们的方法有效提升了多模态大型语言模型在视频推理分割方面的能力。代码和数据集将在https://github.com/rkzheng99/ViLLa提供。

源 PDF