3 个月前

ActBERT:学习全局-局部视频-文本表示

ActBERT:学习全局-局部视频-文本表示

摘要

本文提出ActBERT,一种用于从无标注数据中进行视频-文本联合表示自监督学习的新方法。首先,我们利用全局动作信息来促进语言文本与局部区域物体之间的相互作用,从而从配对的视频序列与文本描述中挖掘出全局与局部的视觉线索,实现对视觉与文本关系的精细化建模。其次,我们引入一种ENtangled Transformer模块(ENT),用于编码三类信息:全局动作、局部区域物体以及语言描述。通过从上下文信息中精心提取线索,该模块能够发现全局与局部之间的对应关系,从而促使视频-文本联合表示同时关注细粒度物体特征以及整体的人类意图。我们在多个下游视频与语言任务上验证了ActBERT的泛化能力,包括文本-视频片段检索、视频字幕生成、视频问答、动作分割以及动作步骤定位。实验结果表明,ActBERT显著优于现有最先进方法,充分展现了其在视频-文本表示学习方面的优越性能。

基准测试

基准方法指标
action-segmentation-on-coinActBERT
Frame accuracy: 57.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ActBERT:学习全局-局部视频-文本表示 | 论文 | HyperAI超神经