6 个月前

摘要

近年来，像CLIP这类大规模预训练方法在文本-视频检索等多模态研究中取得了显著进展。在CLIP框架中，Transformer模型对于建模复杂的多模态关系至关重要。然而，在CLIP的视觉Transformer中，关键的视觉标记化（visual tokenization）过程会生成离散的视觉标记序列，由于视频中连续且相似的帧具有高度冗余性，该过程会产生大量同质化标记，显著增加计算开销，制约了视频检索模型在网页应用中的实际部署。为减少冗余视频标记的数量，本文提出一种多段标记聚类算法，旨在识别最具代表性的标记并剔除非必要标记。鉴于帧冗余主要出现在连续帧之间，我们首先将视频划分为多个片段，并在片段级别进行聚类。随后，从每个片段中选取中心标记（center tokens），将其拼接为新的标记序列，同时有效保留了原始的时间-空间关系。我们实例化了两种聚类算法，以高效地在高维空间中寻找确定性的中心点（medoids），并迭代地对聚类组进行划分。通过这一标记聚类与中心标记选择过程，我们成功减少了冗余视觉标记，显著降低了计算成本。此外，该方法进一步增强了视频与文本表示之间的片段级语义对齐，强化了来自同一片段内帧的标记之间的时空交互能力。本文提出的该方法被命名为CenterCLIP，在典型的文本-视频基准测试中显著超越现有最先进方法，同时在最佳情况下将训练内存消耗降低35%，推理速度提升14%。代码已公开，地址为：\href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}。

源 PDF