4 个月前

ACSNet:弱监督时序动作定位的动作-上下文分离网络

ACSNet:弱监督时序动作定位的动作-上下文分离网络

摘要

弱监督时间动作定位(WS-TAL)的目标是在仅有视频级监督的情况下,对未剪辑视频中的所有动作实例进行定位。由于训练过程中缺乏帧级注释,当前的 WS-TAL 方法依赖于注意力机制来定位对视频级分类任务有贡献的前景片段或帧。然而,这种策略经常在定位结果中将上下文与实际动作混淆。分离动作和上下文是实现精确 WS-TAL 的核心问题,但这一挑战在现有文献中被严重忽视。本文引入了一种显式考虑上下文以实现准确动作定位的动作-上下文分离网络(ACSNet)。该网络由两个分支组成(即前景-背景分支和动作-上下文分支)。前景-背景分支首先在整个视频中区分前景和背景,而动作-上下文分支进一步将前景分为动作和上下文。我们将视频片段与两个潜在组件关联起来(即正向组件和负向组件),它们的不同组合可以有效地表征前景、动作和上下文。此外,我们引入了扩展标签及其辅助上下文类别,以促进动作-上下文分离的学习。实验结果表明,在 THUMOS14 和 ActivityNet v1.2/v1.3 数据集上,ACSNet 显著优于现有的最先进的 WS-TAL 方法。

基准测试

基准方法指标
weakly-supervised-action-localization-on-4ACS-Net
mAP@0.5: 32.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ACSNet:弱监督时序动作定位的动作-上下文分离网络 | 论文 | HyperAI超神经