HyperAIHyperAI

Command Palette

Search for a command to run...

时间之鉴:赋予视频-语言模型时间感知能力

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

摘要

在当代视频理解模型中,建模与理解时间仍然是一个重大挑战。随着语言在推动模型强大泛化能力方面日益凸显其关键作用,基础视频-语言模型具备时间感知能力变得尤为迫切。本文聚焦于时间理解的一个具体方面:由“之前/之后”关系所体现的时间顺序一致性。我们发现,现有的七种视频-语言模型在理解这种基础的时间关系时均表现不佳。在此基础上,我们进一步探讨了一个核心问题:是否可以在不从头重新训练的前提下,为这些基础模型赋予时间感知能力?为此,我们基于在少量视频-文本数据上进行后预训练(post-pretraining)的方法,提出了一种针对VideoCLIP模型的时间适应方案。我们在六个不同数据集上对所适应的模型进行了零样本评估,涵盖三种对时间感知程度要求各异的下游任务。实验结果表明,当任务对时间感知的要求较高时,模型性能取得了显著且令人鼓舞的提升。本研究为探索并赋予现有视频-语言模型时间意识迈出了第一步,且无需依赖大规模数据与高计算成本的从头训练。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时间之鉴:赋予视频-语言模型时间感知能力 | 论文 | HyperAI超神经