
摘要
近年来,像CLIP这类大规模预训练方法在文本-视频检索等多模态研究中取得了显著进展。在CLIP框架中,Transformer模型对于建模复杂的多模态关系至关重要。然而,在CLIP的视觉Transformer中,关键的视觉标记化(visual tokenization)过程会生成离散的视觉标记序列,由于视频中连续且相似的帧具有高度冗余性,该过程会产生大量同质化标记,显著增加计算开销,制约了视频检索模型在网页应用中的实际部署。为减少冗余视频标记的数量,本文提出一种多段标记聚类算法,旨在识别最具代表性的标记并剔除非必要标记。鉴于帧冗余主要出现在连续帧之间,我们首先将视频划分为多个片段,并在片段级别进行聚类。随后,从每个片段中选取中心标记(center tokens),将其拼接为新的标记序列,同时有效保留了原始的时间-空间关系。我们实例化了两种聚类算法,以高效地在高维空间中寻找确定性的中心点(medoids),并迭代地对聚类组进行划分。通过这一标记聚类与中心标记选择过程,我们成功减少了冗余视觉标记,显著降低了计算成本。此外,该方法进一步增强了视频与文本表示之间的片段级语义对齐,强化了来自同一片段内帧的标记之间的时空交互能力。本文提出的该方法被命名为CenterCLIP,在典型的文本-视频基准测试中显著超越现有最先进方法,同时在最佳情况下将训练内存消耗降低35%,推理速度提升14%。代码已公开,地址为:\href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}。
代码仓库
mzhaoshuai/CenterCLIP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-activitynet | CenterCLIP (ViT-B/16) | text-to-video Mean Rank: 5.7 text-to-video Median Rank: 2 text-to-video R@1: 46.2 text-to-video R@10: 87.6 text-to-video R@5: 77.0 video-to-text Mean Rank: 5.5 video-to-text Median Rank: 2 video-to-text R@1: 46.7 video-to-text R@10: 88.0 video-to-text R@5: 77.1 |
| video-retrieval-on-lsmdc | CenterCLIP (ViT-B/16) | text-to-video Mean Rank: 47.3 text-to-video Median Rank: 8 text-to-video R@1: 24.2 text-to-video R@10: 55.9 text-to-video R@5: 46.2 video-to-text Mean Rank: 41.3 video-to-text Median Rank: 7 video-to-text R@1: 24.5 video-to-text R@10: 55.8 video-to-text R@5: 46.4 |
| video-retrieval-on-msr-vtt-1ka | CenterCLIP (ViT-B/16) | text-to-video Mean Rank: 13.8 text-to-video Median Rank: 2 text-to-video R@1: 48.4 text-to-video R@10: 82.0 text-to-video R@5: 73.8 video-to-text Mean Rank: 10.2 video-to-text Median Rank: 2 video-to-text R@1: 47.7 video-to-text R@10: 83.3 video-to-text R@5: 75.0 |
| video-retrieval-on-msvd | CenterCLIP (ViT-B/16) | text-to-video Mean Rank: 8.4 text-to-video Median Rank: 1 text-to-video R@1: 50.6 text-to-video R@10: 88.4 text-to-video R@5: 80.3 video-to-text Mean Rank: 3.0 video-to-text Median Rank: 1 video-to-text R@1: 68.4 video-to-text R@10: 95.0 video-to-text R@5: 90.1 |