4 个月前

揭示视频与语言学习中的单帧偏差

揭示视频与语言学习中的单帧偏差

摘要

训练一个有效的视频与语言模型直观上需要多个帧作为模型输入。然而,目前尚不清楚使用多个帧是否对下游任务有益,如果有益,性能提升是否值得因使用更多帧而大幅增加的计算和内存成本。在本研究中,我们探讨了用于视频与语言学习的单帧模型。在一系列多样化的视频与语言任务(包括文本到视频检索和视频问答)中,我们展示了令人惊讶的结果:通过大规模预训练和推理时适当的帧组合策略,不考虑时间信息的单帧训练模型可以实现比现有方法更好的性能,而现有方法在训练过程中使用了多个帧。这一结果揭示了流行视频与语言数据集中存在强烈的“静态外观偏差”。因此,为了更全面地评估视频与语言模型,我们基于现有的细粒度动作识别数据集提出了两个新的检索任务,这些任务鼓励时间建模。我们的代码可在 https://github.com/jayleicn/singularity 获取。

代码仓库

jayleicn/ClipBERT
pytorch
GitHub 中提及
jayleicn/singularity
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-activitynet-qaSingularity-temporal
Accuracy: 44.1
video-question-answering-on-activitynet-qaSingularity
Accuracy: 43.1
video-question-answering-on-msrvtt-mcSingularity-temporal
Accuracy: 93.7
video-question-answering-on-msrvtt-mcSingularity
Accuracy: 92.1
video-question-answering-on-msrvtt-qaSingularity-temporal
Accuracy: 43.9
video-question-answering-on-msrvtt-qaSingularity
Accuracy: 43.5
video-retrieval-on-activitynetSingularity
text-to-video R@1: 47.1
text-to-video R@10: 85.5
text-to-video R@5: 75.5
video-retrieval-on-didemoSingularity
text-to-video R@1: 53.9
text-to-video R@10: 86.9
text-to-video R@5: 79.4
video-retrieval-on-msr-vtt-1kaSingularity
text-to-video R@1: 41.5
text-to-video R@10: 77
text-to-video R@5: 68.7
video-retrieval-on-ssv2-label-retrievalSingularity-temporal
text-to-video R@1: 47.4
text-to-video R@10: 84
text-to-video R@5: 75.9
video-retrieval-on-ssv2-template-retrievalSingularity-temporal
text-to-video R@1: 77.6
text-to-video R@10: 98.9
text-to-video R@5: 96
zero-shot-video-retrieval-on-activitynetSingularity-temporal-17M
text-to-video R@1: 30.6
text-to-video R@10: 66.9
text-to-video R@5: 55.6
zero-shot-video-retrieval-on-activitynetSingularity-temporal-5M
text-to-video R@1: 30.8
text-to-video R@10: 66.3
text-to-video R@5: 55.9
zero-shot-video-retrieval-on-didemoSingularity-5M
text-to-video R@1: 36.9
text-to-video R@10: 69.3
text-to-video R@5: 61.1
zero-shot-video-retrieval-on-didemoSingularity-17M
text-to-video R@1: 37.1
text-to-video R@10: 69.9
text-to-video R@5: 61.7
zero-shot-video-retrieval-on-msr-vttSingularity-17M
text-to-video R@1: 34.0
text-to-video R@10: 66.7
text-to-video R@5: 56.7
zero-shot-video-retrieval-on-msr-vttSingularity-5M
text-to-video R@1: 28.4
text-to-video R@10: 59.5
text-to-video R@5: 50.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
揭示视频与语言学习中的单帧偏差 | 论文 | HyperAI超神经