8 个月前

统一多模态

多模态表征

Jie Lei Tamara L. Berg Mohit Bansal

摘要

训练一个有效的视频与语言模型直观上需要多个帧作为模型输入。然而，目前尚不清楚使用多个帧是否对下游任务有益，如果有益，性能提升是否值得因使用更多帧而大幅增加的计算和内存成本。在本研究中，我们探讨了用于视频与语言学习的单帧模型。在一系列多样化的视频与语言任务（包括文本到视频检索和视频问答）中，我们展示了令人惊讶的结果：通过大规模预训练和推理时适当的帧组合策略，不考虑时间信息的单帧训练模型可以实现比现有方法更好的性能，而现有方法在训练过程中使用了多个帧。这一结果揭示了流行视频与语言数据集中存在强烈的“静态外观偏差”。因此，为了更全面地评估视频与语言模型，我们基于现有的细粒度动作识别数据集提出了两个新的检索任务，这些任务鼓励时间建模。我们的代码可在 https://github.com/jayleicn/singularity 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

多模态表征

Jie Lei Tamara L. Berg Mohit Bansal

摘要

训练一个有效的视频与语言模型直观上需要多个帧作为模型输入。然而，目前尚不清楚使用多个帧是否对下游任务有益，如果有益，性能提升是否值得因使用更多帧而大幅增加的计算和内存成本。在本研究中，我们探讨了用于视频与语言学习的单帧模型。在一系列多样化的视频与语言任务（包括文本到视频检索和视频问答）中，我们展示了令人惊讶的结果：通过大规模预训练和推理时适当的帧组合策略，不考虑时间信息的单帧训练模型可以实现比现有方法更好的性能，而现有方法在训练过程中使用了多个帧。这一结果揭示了流行视频与语言数据集中存在强烈的“静态外观偏差”。因此，为了更全面地评估视频与语言模型，我们基于现有的细粒度动作识别数据集提出了两个新的检索任务，这些任务鼓励时间建模。我们的代码可在 https://github.com/jayleicn/singularity 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供