6 个月前

多模态表征

Linchao Zhu Yi Yang

摘要

本文提出ActBERT，一种用于从无标注数据中进行视频-文本联合表示自监督学习的新方法。首先，我们利用全局动作信息来促进语言文本与局部区域物体之间的相互作用，从而从配对的视频序列与文本描述中挖掘出全局与局部的视觉线索，实现对视觉与文本关系的精细化建模。其次，我们引入一种ENtangled Transformer模块（ENT），用于编码三类信息：全局动作、局部区域物体以及语言描述。通过从上下文信息中精心提取线索，该模块能够发现全局与局部之间的对应关系，从而促使视频-文本联合表示同时关注细粒度物体特征以及整体的人类意图。我们在多个下游视频与语言任务上验证了ActBERT的泛化能力，包括文本-视频片段检索、视频字幕生成、视频问答、动作分割以及动作步骤定位。实验结果表明，ActBERT显著优于现有最先进方法，充分展现了其在视频-文本表示学习方面的优越性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Linchao Zhu Yi Yang

摘要

本文提出ActBERT，一种用于从无标注数据中进行视频-文本联合表示自监督学习的新方法。首先，我们利用全局动作信息来促进语言文本与局部区域物体之间的相互作用，从而从配对的视频序列与文本描述中挖掘出全局与局部的视觉线索，实现对视觉与文本关系的精细化建模。其次，我们引入一种ENtangled Transformer模块（ENT），用于编码三类信息：全局动作、局部区域物体以及语言描述。通过从上下文信息中精心提取线索，该模块能够发现全局与局部之间的对应关系，从而促使视频-文本联合表示同时关注细粒度物体特征以及整体的人类意图。我们在多个下游视频与语言任务上验证了ActBERT的泛化能力，包括文本-视频片段检索、视频字幕生成、视频问答、动作分割以及动作步骤定位。实验结果表明，ActBERT显著优于现有最先进方法，充分展现了其在视频-文本表示学习方面的优越性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供