4 个月前

AOE-Net:基于自适应注意力机制的实体交互建模用于时间动作提议生成

AOE-Net:基于自适应注意力机制的实体交互建模用于时间动作提议生成

摘要

时间动作提案生成(TAPG)是一项具有挑战性的任务,需要在未剪辑的视频中定位动作区间。直观上,人类通过演员、相关物体和周围环境之间的互动来感知一个动作。尽管TAPG取得了显著进展,但现有的大多数方法忽视了这一人类感知过程的基本原则,将骨干网络应用于给定视频时将其视为黑盒。本文中,我们提出了一种多模态表示网络来建模这些互动,即演员-物体-环境交互网络(AOE-Net)。我们的AOE-Net由两个模块组成:基于感知的多模态表示(PMR)和边界匹配模块(BMM)。此外,我们在PMR中引入了自适应注意力机制(AAM),以专注于主要演员(或相关物体)并建模它们之间的关系。PMR模块通过视觉-语言特征表示每个视频片段,其中主要演员和周围环境由视觉信息表示,而相关物体则通过图像-文本模型中的语言特征进行描述。BMM模块以视觉-语言特征序列作为输入,并生成动作提案。在ActivityNet-1.3和THUMOS-14数据集上的全面实验和广泛的消融研究表明,我们提出的AOE-Net在TAPG和时间动作检测方面均显著优于先前的最先进方法,并且表现出优异的性能和泛化能力。为了证明AOE-Net的鲁棒性和有效性,我们进一步在以自我为中心的视频数据集EPIC-KITCHENS 100上进行了消融研究。源代码将在论文被接受后公开发布。

代码仓库

uark-aicv/aoe-net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-proposal-generation-onAOE-Net
AR@100: 77.67
AUC (test): 70.10
AUC (val): 69.71
temporal-action-proposal-generation-on-thumosAOE-Net + Soft-NMS
AR@100: 50.26
AR@1000: 68.19
AR@200: 57.30
AR@50: 44.56
AR@500: 64.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AOE-Net:基于自适应注意力机制的实体交互建模用于时间动作提议生成 | 论文 | HyperAI超神经