
摘要
大规模视频-语言预训练在推进视频-语言理解任务方面取得了显著进展。然而,视频编码的沉重计算负担仍然是一个严峻的效率瓶颈,尤其是在处理长视频时。这些长视频由于其固有的三维特性和时空冗余,包含大量的视觉标记,使得捕捉复杂的时空关系变得非常困难。为了解决这一问题,我们提出了一种高效的方法,称为时间-空间标记聚合(TEmporal-Spatial Token Aggregation, TESTA)。TESTA通过自适应地聚合相似帧以及每帧内的相似补丁来压缩视频语义。TESTA可以减少75%的视觉标记数量,从而加速视频编码。基于TESTA,我们引入了一个预训练的视频-语言模型,在每个视频编码器块中配备了分时段空标记聚合模块。我们在五个数据集上对段落到视频检索和长形式VideoQA任务进行了评估。实验结果表明,TESTA将计算效率提高了1.7倍,并且通过扩展处理更长输入帧的能力实现了显著的性能提升,例如在QuerYD数据集上R@1指标提升了13.7%,在Condensed Movie数据集上R@1指标提升了6.5%。
代码仓库
renshuhuai-andy/testa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-activitynet-qa | TESTA (ViT-B/16) | Accuracy: 45 |
| video-retrieval-on-activitynet | TESTA (ViT-B/16) | text-to-video R@1: 54.8 text-to-video R@10: 89.6 text-to-video R@5: 80.8 |
| video-retrieval-on-condensed-movies | TESTA (ViT-B/16) | text-to-video R@1: 24.9 text-to-video R@10: 55.1 text-to-video R@5: 46.5 |
| video-retrieval-on-didemo | TESTA (ViT-B/16) | text-to-video R@1: 61.2 text-to-video R@10: 91.5 text-to-video R@5: 87.2 |
| video-retrieval-on-queryd | TESTA (ViT-B/16) | text-to-video R@1: 83.4 text-to-video R@10: 95.3 text-to-video R@5: 93.8 |