3 个月前

CenterCLIP:用于高效文本-视频检索的Token聚类

CenterCLIP:用于高效文本-视频检索的Token聚类

摘要

近年来,像CLIP这类大规模预训练方法在文本-视频检索等多模态研究中取得了显著进展。在CLIP框架中,Transformer模型对于建模复杂的多模态关系至关重要。然而,在CLIP的视觉Transformer中,关键的视觉标记化(visual tokenization)过程会生成离散的视觉标记序列,由于视频中连续且相似的帧具有高度冗余性,该过程会产生大量同质化标记,显著增加计算开销,制约了视频检索模型在网页应用中的实际部署。为减少冗余视频标记的数量,本文提出一种多段标记聚类算法,旨在识别最具代表性的标记并剔除非必要标记。鉴于帧冗余主要出现在连续帧之间,我们首先将视频划分为多个片段,并在片段级别进行聚类。随后,从每个片段中选取中心标记(center tokens),将其拼接为新的标记序列,同时有效保留了原始的时间-空间关系。我们实例化了两种聚类算法,以高效地在高维空间中寻找确定性的中心点(medoids),并迭代地对聚类组进行划分。通过这一标记聚类与中心标记选择过程,我们成功减少了冗余视觉标记,显著降低了计算成本。此外,该方法进一步增强了视频与文本表示之间的片段级语义对齐,强化了来自同一片段内帧的标记之间的时空交互能力。本文提出的该方法被命名为CenterCLIP,在典型的文本-视频基准测试中显著超越现有最先进方法,同时在最佳情况下将训练内存消耗降低35%,推理速度提升14%。代码已公开,地址为:\href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}。

代码仓库

mzhaoshuai/CenterCLIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-activitynetCenterCLIP (ViT-B/16)
text-to-video Mean Rank: 5.7
text-to-video Median Rank: 2
text-to-video R@1: 46.2
text-to-video R@10: 87.6
text-to-video R@5: 77.0
video-to-text Mean Rank: 5.5
video-to-text Median Rank: 2
video-to-text R@1: 46.7
video-to-text R@10: 88.0
video-to-text R@5: 77.1
video-retrieval-on-lsmdcCenterCLIP (ViT-B/16)
text-to-video Mean Rank: 47.3
text-to-video Median Rank: 8
text-to-video R@1: 24.2
text-to-video R@10: 55.9
text-to-video R@5: 46.2
video-to-text Mean Rank: 41.3
video-to-text Median Rank: 7
video-to-text R@1: 24.5
video-to-text R@10: 55.8
video-to-text R@5: 46.4
video-retrieval-on-msr-vtt-1kaCenterCLIP (ViT-B/16)
text-to-video Mean Rank: 13.8
text-to-video Median Rank: 2
text-to-video R@1: 48.4
text-to-video R@10: 82.0
text-to-video R@5: 73.8
video-to-text Mean Rank: 10.2
video-to-text Median Rank: 2
video-to-text R@1: 47.7
video-to-text R@10: 83.3
video-to-text R@5: 75.0
video-retrieval-on-msvdCenterCLIP (ViT-B/16)
text-to-video Mean Rank: 8.4
text-to-video Median Rank: 1
text-to-video R@1: 50.6
text-to-video R@10: 88.4
text-to-video R@5: 80.3
video-to-text Mean Rank: 3.0
video-to-text Median Rank: 1
video-to-text R@1: 68.4
video-to-text R@10: 95.0
video-to-text R@5: 90.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CenterCLIP:用于高效文本-视频检索的Token聚类 | 论文 | HyperAI超神经