6 个月前

计算机视觉

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

摘要

在当代视频理解模型中，建模与理解时间仍然是一个重大挑战。随着语言在推动模型强大泛化能力方面日益凸显其关键作用，基础视频-语言模型具备时间感知能力变得尤为迫切。本文聚焦于时间理解的一个具体方面：由“之前/之后”关系所体现的时间顺序一致性。我们发现，现有的七种视频-语言模型在理解这种基础的时间关系时均表现不佳。在此基础上，我们进一步探讨了一个核心问题：是否可以在不从头重新训练的前提下，为这些基础模型赋予时间感知能力？为此，我们基于在少量视频-文本数据上进行后预训练（post-pretraining）的方法，提出了一种针对VideoCLIP模型的时间适应方案。我们在六个不同数据集上对所适应的模型进行了零样本评估，涵盖三种对时间感知程度要求各异的下游任务。实验结果表明，当任务对时间感知的要求较高时，模型性能取得了显著且令人鼓舞的提升。本研究为探索并赋予现有视频-语言模型时间意识迈出了第一步，且无需依赖大规模数据与高计算成本的从头训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

摘要

在当代视频理解模型中，建模与理解时间仍然是一个重大挑战。随着语言在推动模型强大泛化能力方面日益凸显其关键作用，基础视频-语言模型具备时间感知能力变得尤为迫切。本文聚焦于时间理解的一个具体方面：由“之前/之后”关系所体现的时间顺序一致性。我们发现，现有的七种视频-语言模型在理解这种基础的时间关系时均表现不佳。在此基础上，我们进一步探讨了一个核心问题：是否可以在不从头重新训练的前提下，为这些基础模型赋予时间感知能力？为此，我们基于在少量视频-文本数据上进行后预训练（post-pretraining）的方法，提出了一种针对VideoCLIP模型的时间适应方案。我们在六个不同数据集上对所适应的模型进行了零样本评估，涵盖三种对时间感知程度要求各异的下游任务。实验结果表明，当任务对时间感知的要求较高时，模型性能取得了显著且令人鼓舞的提升。本研究为探索并赋予现有视频-语言模型时间意识迈出了第一步，且无需依赖大规模数据与高计算成本的从头训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

时间之鉴：赋予视频-语言模型时间感知能力 | 论文 | HyperAI超神经