8 个月前

摘要

视觉-语言模型（VLMs）通过计算视频的视觉特征与基于文本的类别标签表示之间的相似度分数来对查询视频进行分类。近期，大型语言模型（LLMs）被用于增强基于文本的类别标签，提高类别的描述性。然而，这些改进仅限于文本分类器，而未考虑查询视频的视觉特征。在本文中，我们提出了一种框架，该框架结合了预训练的判别式VLMs与预训练的生成式视频到文本和文本到文本模型。我们对标准零样本设置进行了两项关键修改。首先，我们提出了语言引导的视觉特征增强方法，并利用视频到文本模型将查询视频转换为其描述形式。生成的描述包含了查询视频的关键视觉线索，例如存在的物体及其时空交互。这些描述性的线索为VLMs提供了额外的语义知识，以提升其零样本性能。其次，我们提出了针对视频的具体提示（prompts），以使LLMs生成更有意义的描述来丰富类别标签表示。具体而言，我们引入了提示技术来创建类别的树形层次结构（Tree Hierarchy of Categories），为额外的视觉线索提供更高层次的动作上下文。我们在三种不同的零样本设置下展示了我们的方法在视频理解中的有效性：1）视频动作识别；2）视频到文本和文本到视频检索；3）时间敏感型视频任务。多个基准测试和不同VLMs的一致性改进证明了我们所提出的框架的有效性。我们的代码将公开发布。

源 PDF