4 个月前

AEI:基于自适应注意力的参与者-环境交互用于时间动作提案生成

AEI:基于自适应注意力的参与者-环境交互用于时间动作提案生成

摘要

人类通常通过演员与周围环境之间的互动来感知视频中动作的建立。一个动作只有在视频中的主要演员开始与环境互动时才开始,而在主要演员停止互动时结束。尽管在时间动作提案生成方面取得了巨大进展,但大多数现有工作忽略了上述事实,将其模型学习生成动作的过程视为黑箱操作。本文中,我们尝试模拟人类的这一能力,提出了一种演员环境互动(Actor Environment Interaction, AEI)网络,以改进用于时间动作提案生成的视频表示。AEI 包含两个模块,即基于感知的视觉表示(Perception-based Visual Representation, PVR)和边界匹配模块(Boundary-matching Module, BMM)。PVR 通过提出的自适应注意力机制考虑了人与人之间的关系以及人与环境之间的关系,从而表示每个视频片段。随后,BMM 利用这些视频表示生成动作提案。我们在 ActivityNet-1.3 和 THUMOS-14 数据集上对 AEI 进行了全面评估,在时间动作提案和检测任务中使用了两种边界匹配架构(即基于卷积神经网络 [CNN] 和基于图卷积网络 [GCN] 的架构)以及两种分类器(即 Unet 和 P-GCN)。我们的 AEI 在时间动作提案生成和时间动作检测任务中均表现出色,显著优于现有的最先进方法,并且具有良好的泛化性能。

代码仓库

vhvkhoa/tapg-agentenvinteration
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-proposal-generation-onAEI-G
AR@100: 77.24
AUC (test): 70.09
AUC (val): 69.47

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AEI:基于自适应注意力的参与者-环境交互用于时间动作提案生成 | 论文 | HyperAI超神经