4 个月前

TESTA:用于长视频语言理解的时间-空间令牌聚合

TESTA:用于长视频语言理解的时间-空间令牌聚合

摘要

大规模视频-语言预训练在推进视频-语言理解任务方面取得了显著进展。然而,视频编码的沉重计算负担仍然是一个严峻的效率瓶颈,尤其是在处理长视频时。这些长视频由于其固有的三维特性和时空冗余,包含大量的视觉标记,使得捕捉复杂的时空关系变得非常困难。为了解决这一问题,我们提出了一种高效的方法,称为时间-空间标记聚合(TEmporal-Spatial Token Aggregation, TESTA)。TESTA通过自适应地聚合相似帧以及每帧内的相似补丁来压缩视频语义。TESTA可以减少75%的视觉标记数量,从而加速视频编码。基于TESTA,我们引入了一个预训练的视频-语言模型,在每个视频编码器块中配备了分时段空标记聚合模块。我们在五个数据集上对段落到视频检索和长形式VideoQA任务进行了评估。实验结果表明,TESTA将计算效率提高了1.7倍,并且通过扩展处理更长输入帧的能力实现了显著的性能提升,例如在QuerYD数据集上R@1指标提升了13.7%,在Condensed Movie数据集上R@1指标提升了6.5%。

代码仓库

renshuhuai-andy/testa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-activitynet-qaTESTA (ViT-B/16)
Accuracy: 45
video-retrieval-on-activitynetTESTA (ViT-B/16)
text-to-video R@1: 54.8
text-to-video R@10: 89.6
text-to-video R@5: 80.8
video-retrieval-on-condensed-moviesTESTA (ViT-B/16)
text-to-video R@1: 24.9
text-to-video R@10: 55.1
text-to-video R@5: 46.5
video-retrieval-on-didemoTESTA (ViT-B/16)
text-to-video R@1: 61.2
text-to-video R@10: 91.5
text-to-video R@5: 87.2
video-retrieval-on-querydTESTA (ViT-B/16)
text-to-video R@1: 83.4
text-to-video R@10: 95.3
text-to-video R@5: 93.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TESTA:用于长视频语言理解的时间-空间令牌聚合 | 论文 | HyperAI超神经