
摘要
视频变换器(Video Transformers)凭借其卓越的表达能力和灵活性,已成为各种视频下游任务的主要解决方案。然而,由于整个视频帧中存在大量标记(tokens),这些视频变换器面临着沉重的计算成本,这已成为训练模型的主要障碍。此外,与主要内容无关的标记,例如背景区域,会降低模型的泛化性能。为了解决这些问题,我们提出了一种无需额外训练即可合并背景标记的方法——轻量级视频变换器(vid-TLDR),旨在通过合并背景标记来提高视频变换器的效率。在vid-TLDR中,我们引入了一种新颖的方法,仅使用注意力图来捕捉视频中的显著区域。进一步地,我们提出了基于显著性的标记合并策略,通过丢弃背景标记并增强对象得分来实现这一目标。实验结果表明,vid-TLDR显著降低了视频变换器的计算复杂度,并且在性能上与未使用vid-TLDR的基础模型相比具有竞争力。代码可在https://github.com/mlvlab/vid-TLDR 获取。
代码仓库
mlvlab/vid-tldr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-activitynet | vid-TLDR (UMT-L) | text-to-video R@1: 66.7 text-to-video R@10: 94.4 text-to-video R@5: 88.6 video-to-text R@1: 63.9 video-to-text R@10: 94.5 video-to-text R@5: 88.7 |
| video-retrieval-on-didemo | vid-TLDR (UMT-L) | text-to-video R@1: 72.3 text-to-video R@10: 94.2 text-to-video R@5: 91.2 video-to-text R@1: 68.5 video-to-text R@10: 93.8 video-to-text R@5: 89.8 |
| video-retrieval-on-lsmdc | vid-TLDR (UMT-L) | text-to-video R@1: 43.1 text-to-video R@10: 71.4 text-to-video R@5: 64.5 video-to-text R@1: 40.7 video-to-text R@10: 63.6 video-to-text R@5: 70.2 |
| video-retrieval-on-msr-vtt | vid-TLDR (UMT-L) | text-to-video R@1: 58.1 text-to-video R@10: 81.6 text-to-video R@5: 81.0 video-to-text R@1: 58.7 video-to-text R@10: 86.9 video-to-text R@5: 81.6 |
| video-retrieval-on-msvd | vid-TLDR (UMT-L) | text-to-video R@1: 57.9 text-to-video R@10: 89.4 text-to-video R@5: 83.8 video-to-text R@1: 82.7 video-to-text R@10: 96.3 video-to-text R@5: 94.5 |
| video-retrieval-on-ssv2-label-retrieval | vid-TLDR (UMT-L) | text-to-video R@1: 73.1 text-to-video R@10: 96.6 text-to-video R@5: 93.3 |
| video-retrieval-on-ssv2-template-retrieval | vid-TLDR (UMT-L) | text-to-video R@1: 90.2 text-to-video R@10: 100.0 text-to-video R@5: 100.0 |
| visual-question-answering-on-msrvtt-qa-1 | vid-TLDR (UMT-L) | Accuracy: 0.470 |
| visual-question-answering-on-msvd-qa-1 | vid-TLDR (UMT-L) | Accuracy: 0.549 |
| zero-shot-video-retrieval-on-activitynet | vid-TLDR (UMT-L) | text-to-video R@1: 42.8 text-to-video R@10: 79.6 text-to-video R@5: 69.4 video-to-text R@1: 41.2 video-to-text R@10: 79.1 video-to-text R@5: 68.2 |
| zero-shot-video-retrieval-on-didemo | vid-TLDR (UMT-L) | text-to-video R@1: 52.0 text-to-video R@10: 81.0 text-to-video R@5: 74.0 video-to-text R@1: 52.0 video-to-text R@10: 83.8 video-to-text R@5: 75.9 |
| zero-shot-video-retrieval-on-msr-vtt | vid-TLDR (UMT-L) | text-to-video R@1: 42.1 text-to-video R@10: 72.4 text-to-video R@5: 63.9 video-to-text R@1: 37.7 video-to-text R@10: 69.4 video-to-text R@5: 59.8 |
| zero-shot-video-retrieval-on-msvd | vid-TLDR (UMT-L) | text-to-video R@1: 50.0 text-to-video R@10: 85.5 text-to-video R@5: 77.6 video-to-text R@1: 75.7 video-to-text R@10: 95.1 video-to-text R@5: 90.0 |