3 个月前

HierVL:学习分层视频-语言嵌入

HierVL:学习分层视频-语言嵌入

摘要

视频-语言嵌入为向视觉表征中注入语义信息提供了一条有前景的路径,但现有方法仅能捕捉持续数秒的视频片段与其对应文本之间的短期关联。为此,我们提出HierVL——一种新型的分层视频-语言嵌入模型,能够同时建模长期与短期关联。在训练数据方面,我们采用带有时间戳的人类行为文本描述的视频,以及对整段视频活动的高层级文本摘要(如Ego4D数据集中所提供的)。我们设计了一种分层对比学习目标,促使文本与视觉信息在片段级别和视频级别均实现对齐。其中,片段级别的约束利用逐步描述来捕捉当前时刻正在发生的内容,而视频级别的约束则通过摘要文本捕捉行为发生的深层原因,即活动的宏观背景与行为者的意图。所提出的分层架构不仅使片段级表示优于单一层次的基准方法,还实现了在需要长期视频建模任务上的最先进(SotA)性能。HierVL在多个具有挑战性的下游任务(包括EPIC-KITCHENS-100、Charades-Ego和HowTo100M)中,无论是在零样本(zero-shot)还是微调(fine-tuned)设置下,均展现出优异的迁移能力。

代码仓库

facebookresearch/hiervl
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-on-charades-egoHierVL
mAP: 33.8
action-recognition-on-charades-egoHierVL (Zero-shot)
mAP: 26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HierVL:学习分层视频-语言嵌入 | 论文 | HyperAI超神经