3 个月前

时间之鉴:赋予视频-语言模型时间感知能力

时间之鉴:赋予视频-语言模型时间感知能力

摘要

在当代视频理解模型中,建模与理解时间仍然是一个重大挑战。随着语言在推动模型强大泛化能力方面日益凸显其关键作用,基础视频-语言模型具备时间感知能力变得尤为迫切。本文聚焦于时间理解的一个具体方面:由“之前/之后”关系所体现的时间顺序一致性。我们发现,现有的七种视频-语言模型在理解这种基础的时间关系时均表现不佳。在此基础上,我们进一步探讨了一个核心问题:是否可以在不从头重新训练的前提下,为这些基础模型赋予时间感知能力?为此,我们基于在少量视频-文本数据上进行后预训练(post-pretraining)的方法,提出了一种针对VideoCLIP模型的时间适应方案。我们在六个不同数据集上对所适应的模型进行了零样本评估,涵盖三种对时间感知程度要求各异的下游任务。实验结果表明,当任务对时间感知的要求较高时,模型性能取得了显著且令人鼓舞的提升。本研究为探索并赋予现有视频-语言模型时间意识迈出了第一步,且无需依赖大规模数据与高计算成本的从头训练。

代码仓库

bpiyush/TestOfTime
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-text-retrieval-on-test-of-timeTACT
2-Class Accuracy: 64.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时间之鉴:赋予视频-语言模型时间感知能力 | 论文 | HyperAI超神经