4 个月前

视频-TLDR:用于轻量级视频变压器的无训练令牌合并

视频-TLDR:用于轻量级视频变压器的无训练令牌合并

摘要

视频变换器(Video Transformers)凭借其卓越的表达能力和灵活性,已成为各种视频下游任务的主要解决方案。然而,由于整个视频帧中存在大量标记(tokens),这些视频变换器面临着沉重的计算成本,这已成为训练模型的主要障碍。此外,与主要内容无关的标记,例如背景区域,会降低模型的泛化性能。为了解决这些问题,我们提出了一种无需额外训练即可合并背景标记的方法——轻量级视频变换器(vid-TLDR),旨在通过合并背景标记来提高视频变换器的效率。在vid-TLDR中,我们引入了一种新颖的方法,仅使用注意力图来捕捉视频中的显著区域。进一步地,我们提出了基于显著性的标记合并策略,通过丢弃背景标记并增强对象得分来实现这一目标。实验结果表明,vid-TLDR显著降低了视频变换器的计算复杂度,并且在性能上与未使用vid-TLDR的基础模型相比具有竞争力。代码可在https://github.com/mlvlab/vid-TLDR 获取。

代码仓库

mlvlab/vid-tldr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-activitynetvid-TLDR (UMT-L)
text-to-video R@1: 66.7
text-to-video R@10: 94.4
text-to-video R@5: 88.6
video-to-text R@1: 63.9
video-to-text R@10: 94.5
video-to-text R@5: 88.7
video-retrieval-on-didemovid-TLDR (UMT-L)
text-to-video R@1: 72.3
text-to-video R@10: 94.2
text-to-video R@5: 91.2
video-to-text R@1: 68.5
video-to-text R@10: 93.8
video-to-text R@5: 89.8
video-retrieval-on-lsmdcvid-TLDR (UMT-L)
text-to-video R@1: 43.1
text-to-video R@10: 71.4
text-to-video R@5: 64.5
video-to-text R@1: 40.7
video-to-text R@10: 63.6
video-to-text R@5: 70.2
video-retrieval-on-msr-vttvid-TLDR (UMT-L)
text-to-video R@1: 58.1
text-to-video R@10: 81.6
text-to-video R@5: 81.0
video-to-text R@1: 58.7
video-to-text R@10: 86.9
video-to-text R@5: 81.6
video-retrieval-on-msvdvid-TLDR (UMT-L)
text-to-video R@1: 57.9
text-to-video R@10: 89.4
text-to-video R@5: 83.8
video-to-text R@1: 82.7
video-to-text R@10: 96.3
video-to-text R@5: 94.5
video-retrieval-on-ssv2-label-retrievalvid-TLDR (UMT-L)
text-to-video R@1: 73.1
text-to-video R@10: 96.6
text-to-video R@5: 93.3
video-retrieval-on-ssv2-template-retrievalvid-TLDR (UMT-L)
text-to-video R@1: 90.2
text-to-video R@10: 100.0
text-to-video R@5: 100.0
visual-question-answering-on-msrvtt-qa-1vid-TLDR (UMT-L)
Accuracy: 0.470
visual-question-answering-on-msvd-qa-1vid-TLDR (UMT-L)
Accuracy: 0.549
zero-shot-video-retrieval-on-activitynetvid-TLDR (UMT-L)
text-to-video R@1: 42.8
text-to-video R@10: 79.6
text-to-video R@5: 69.4
video-to-text R@1: 41.2
video-to-text R@10: 79.1
video-to-text R@5: 68.2
zero-shot-video-retrieval-on-didemovid-TLDR (UMT-L)
text-to-video R@1: 52.0
text-to-video R@10: 81.0
text-to-video R@5: 74.0
video-to-text R@1: 52.0
video-to-text R@10: 83.8
video-to-text R@5: 75.9
zero-shot-video-retrieval-on-msr-vttvid-TLDR (UMT-L)
text-to-video R@1: 42.1
text-to-video R@10: 72.4
text-to-video R@5: 63.9
video-to-text R@1: 37.7
video-to-text R@10: 69.4
video-to-text R@5: 59.8
zero-shot-video-retrieval-on-msvdvid-TLDR (UMT-L)
text-to-video R@1: 50.0
text-to-video R@10: 85.5
text-to-video R@5: 77.6
video-to-text R@1: 75.7
video-to-text R@10: 95.1
video-to-text R@5: 90.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频-TLDR:用于轻量级视频变压器的无训练令牌合并 | 论文 | HyperAI超神经